- експеримент
- Веб-історія сайту «Інтер'єр Плюс»
- Спроба відновлення за допомогою утиліти CheckParams
- Он-лайн парсер Robotools
Заробіток в інтернеті не обмежується контекстною рекламою на кшталт AdSense! І причина не в складнощах, з якими стикається веб-майстер при переведенні в готівку чека , Надісланого компанією Google. Справа в тому, що щоб отримати дохід з рекламною веб-майданчика, необхідно спочатку просетапіть цю саму площадку. А для початку непогано б підібрати домен для комп'ютерного сайту.
Існує поширена думка, що все милозвучні доменні імена давно вже зареєстровані, і нам не залишається нічого, крім довгих або труднопроизносимих словосполучень. Не заперечуючи в цілому цю істину, відзначимо, що деякі зайняті домени з часом звільняються в силу різних причин і обставин. Завдання пронозливого кіберсквоттера - вчасно зорієнтуватися, знайти потрібний вільний ресурс і скромним бюджетом зареєструвати його.
Часто буває так, що сайт має бурхливу (або не дуже) передісторію, і в разі її позитивної оцінки у веб-майстра є бажання, та й всі підстави, відновити колишній контент. Яким способом це зробити?
експеримент
Для того щоб написати цю статтю ми вирішили зареєструвати на себе доменне ім'я interierplus.com, яке раніше належало одній організації торгівлі з Хмельницького, що спеціалізувалася на торгівлі будівельними матеріалами для внутрішньої обробки приміщень: лінолеум, ламінат, шпалери, паркетна дошка і т.п. На момент реєстрації сайт салону «Інтер'єр Плюс» на інших доменах знайдений не був. Це давало підстави припускати, що компанія припинила свою діяльність, і ми, відновивши контент нехай навіть з дослідницькою метою, не обмежить нічиїх інтересів і не порушимо нічиї права.
Веб-історія сайту «Інтер'єр Плюс»
Те, що дані сайту інтер'єр Плюс зберігаються в веб-архіві ми знали і до його реєстрації. Тут немає особливого know-how, крім хіба що прямого знання про ресурс, провідного інтернет-історію. Інша справа програма HowManyPage, знайдена тут , Яка забезпечує пакетний доступ до веб-архіву. Результатом запиту утиліти є інформація про кількість що зберігаються копій (важливий параметр $ kol_files) і бек-лінків (несуттєвий параметр $ backYH).
Це вже дещо. Маючи на руках таку інформацію, можна оцінити трудовитрати при ручному відновленні виявлених в архіві сторінок сайту або ... Або спробувати знайти спосіб роботизировать цей процес.
Спроба відновлення за допомогою утиліти CheckParams
Спочатку в якості інструменту для відновлення сайту з архіву ми взяли утиліту, чия назва вже винесено в підзаголовок. Використання безкоштовної ліцензії жорстко регламентує її виробник, не в останню чергу і тому, що CheckParams - це багатоцільова програма, функціональність якої розширюється за допомогою скриптів, оформлених у вигляді окремих модулів. Процедура отримання ліцензії випливає з скрін-шоти, поданого нижче:
Для досягнення поставленої нами мети необхідно завантажити з сайту розробника скрипт wa-grabber, призначений для препарації архівних даних в html-код шуканого сайту. Роботою Web-Archive Grabber'а управляє вікно його установок, де можна задати всі необхідні параметри. До числа їх належить ім'я файлу (на прикладі внизу - це readme-wa-grabber.txt), в якому зберігаються адреси оживляє сайтів.
Уже в редагуванні поля URLs to grab проявився норов утиліти CheckParams: вона регулярно "забувала" значення цього поля, пропонуючи за замовчуванням вище наведений текст, в той час, коли в поле Results dir відмінно зберігалися введені дані. Зрештою, неадекватність комплексу CheckParams плюс Web-Archive Grabber привела до того, що відновлення сайту виявилося для нього непосильним завданням.
Он-лайн парсер Robotools
Єдиною надією для нас залишався веб-сервіс, пропонований сайтом R-Tools . Умови його використання такі, що новонавернений користувач може відновити з архіву сайт (сайти), сумарним об'ємом не більш 360 сторінок. За умови, що йому вдасться зареєструватися :)
Якщо реєстрація пройшла успішно (в разі виникнення проблем потрібно просто увійти в «Чат з адміном» і створити сервіс-тікет), в особистому кабінеті ми вводимо або шлях до спочинку в архіві сайту, або список доменів на відновлення.
З причини того, що ми не ставимо перед собою завдання просуппортіть сервіс Robotools, частина проміжних скрін-шотів цього захоплюючого заняття ми пропускаємо і представляємо «півфінальний» знімок екрана, який засвідчив безсумнівний успіх. Сайт interierplus.com успішно відновлено: у нас на балансі 56 його сторінок, загальним обсягом 2,6 мегабайта. Принагідно зауважимо, що рівень нашого кредитування знизився до 339 сторінок. Це арифметика в пояснень не потребує.
Ще один, що випереджає завершення процесу, знімок екрана дає кількісне уявлення про виконану роботу і дозволяє вбудувати в код сайту параметри для біржових операцій. Судячи з надіндексом NEW, це опція з'явилася порівняно недавно:
Справа техніки: завантажити архів і викласти його на хостинг. Тепер у нас хай і неповноцінний сайт, в якому бракує більшості сторінок і не працює частина внутрішніх посилань, але, втім, робоча площадка, яку зможуть відвідувати роботи пошукових машин. Якщо веб-ресурс тривалий час знаходився в дауні, потрібен якийсь час, для того, щоб пошуковики відновили його в своїх базах даних і привласнили йому відповідний рейтинг. У всякому разі, сайт ожив, і його видно в світовій павутині:
Ми виконали цей експеримент з метою огляду сучасних програмних засобів по роботі з Інтернетом. Наш наступний крок - продаж сайту на інтернет-біржах. У нас тепер є що запропонувати потенційним клієнтам.
Яким способом це зробити?