Входные данные текстовые файлы с доменными именами, датой регистрации домена, татой освобождения домена.
Требуется в многопоточном режиме (не менее 30), получать страницы (либо редиректы 301/302) и парсить их, получая производя поиск необходимых нам данных.
Основные данные, которые требуется получить:
используемый онлайн консультант
используемая CMS
язык сайта
другие добавляемые позже условия
Хранение данных
Мы должны хранить данные, относящиеся к каждому доменному имени.
Так например в самом простом виде домен, cms, liveconsultant, язык, размер документа, результат ответа (404, 200, 500, 502, 300-301 редиректы, со следованием по указанному адресу, в пределах одного домена, делегирован/неделегирован, дата регистрации, дата освобождения домена)
Поиск данных, по установленным критериям:
Определение онлайн консультанта:
JivoSite
Строчка: "//code.jivosite.com/script/widget/"
RedHelper: "web.redhelper.ru/service/..."
LiveTex: "livetex.ru/js/client.js"
LiveChatinc: "//cdn.livechatinc.com"
Regidium: "widget.regidium.com/widget.js"
Методика: поиск в загружаемом html документе, указанных строчек или их частей.
Определение CMS:
1С-Битрикс
Строчка: "/bitrix/" + ( URL 200 domain.xxx/bitrix/ (на этой странице трока: "/bitrix/admin/")) либо "доступ запрещен, либо запрос авторизации"
Drupal
Строчка: "/sites/all/modules/" + URL 200 domain.xxx/user/ (на этой странице строка: "<input type="hidden" name="form_id" value="user_login" />")
Методика: поиск в загружаемом html документе, указанных строчек или их частей, обращение по специальным адресам.
"Рабочий стол"
За основу можно взять ваши наработки.
- на главном экране отображаем общее количество обработанных доменов, блок "онлайн консультанты" со сравнительным графиком (количество, дата) распределения в абсолютном и относительном значениях, блок "CMS", со сравнительным графиком (количество, дата) распределения в абсолютном и относительном значениях, количество доменов со сравнительным графиком (количество, дата) распределения в абсолютном и относительном значениях.
"Выборки"
Нужно сделать возможность выбирать в том числе и сложные условия и сортировать данные.
Например: Выбрать все сайты с онлайн консультантом LiveTex + CMS 1С-Битрикс + зарегистрированные 10.10.2014
"Запуск скрипта"
Скрипт предполагается запускать либо каждый день, либо более редко, либо рассмотреть возможность постоянной работы отслеживание изменений в реальном времени.
Платформа: Windows + MSSQL либо linux + mysql или mongo.
Сам бот НЕ php!!! Скорость очень важна.
Из России.
Оплата в рублях.
С богатым опытом подобных реализаций.
Опубликован 25.03.2015 в 19:22
Заказ находится в архиве