Заказ закрыт
Многопоточный бот (робот) для аналитики

Бюджет: по договоренности
Входные данные – текстовые файлы с доменными именами, датой регистрации домена, татой освобождения домена. 

Требуется в многопоточном режиме (не менее 30), получать страницы (либо редиректы 301/302) и парсить их, получая производя поиск необходимых нам данных. 

Основные данные, которые требуется получить: 
используемый онлайн консультант 
используемая CMS 
язык сайта 
другие – добавляемые позже условия 

Хранение данных 
Мы должны хранить данные, относящиеся к каждому доменному имени. 
Так например – в самом простом виде – домен, cms, liveconsultant, язык, размер документа, результат ответа (404, 200, 500, 502, 300-301 – редиректы, со следованием по указанному адресу, в пределах одного домена, делегирован/неделегирован, дата регистрации, дата освобождения домена) 

Поиск данных, по установленным критериям: 

Определение онлайн консультанта: 

JivoSite 
Строчка: "//code.jivosite.com/script/widget/" 

RedHelper: "web.redhelper.ru/service/..." 

LiveTex: "livetex.ru/js/client.js" 

LiveChatinc: "//cdn.livechatinc.com" 

Regidium: "widget.regidium.com/widget.js" 

Методика: поиск в загружаемом html документе, указанных строчек или их частей. 

Определение CMS: 

1С-Битрикс 
Строчка: "/bitrix/" + ( URL 200 domain.xxx/bitrix/ (на этой странице трока: "/bitrix/admin/")) либо "доступ запрещен, либо запрос авторизации" 

Drupal 
Строчка: "/sites/all/modules/" + URL 200 domain.xxx/user/ (на этой странице строка: "<input type="hidden" name="form_id" value="user_login" />") 

Методика: поиск в загружаемом html документе, указанных строчек или их частей, обращение по специальным адресам. 

"Рабочий стол" 
За основу – можно взять ваши наработки. 
- на главном экране – отображаем – общее количество обработанных доменов, блок "онлайн консультанты" со сравнительным графиком (количество, дата) – распределения в абсолютном и относительном значениях, блок "CMS", со сравнительным графиком (количество, дата) – распределения в абсолютном и относительном значениях, количество доменов – со сравнительным графиком (количество, дата) – распределения в абсолютном и относительном значениях. 
"Выборки" 
Нужно сделать возможность выбирать в том числе и сложные условия и сортировать данные. 

Например: Выбрать все сайты с онлайн консультантом LiveTex + CMS 1С-Битрикс + зарегистрированные 10.10.2014 

"Запуск скрипта" 
Скрипт предполагается запускать либо каждый день, либо более редко, либо рассмотреть возможность постоянной работы – отслеживание изменений в реальном времени. 

Платформа: Windows + MSSQL либо linux + mysql или mongo. 
Сам бот – НЕ php!!! Скорость очень важна.
Из России. 
Оплата в рублях. 
С богатым опытом подобных реализаций.
Опубликован 25.03.2015 в 19:22
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.