Программа-парсер поисковых систем

Бюджет: по договоренности
Нужно написать программу-парсер для осуществления сбора доменных имён из результатов выдачи поисковых систем. Сбор списка доменов должен осуществляться по определенному списку ключевых слов. 



Требования к программе:

- Многопоточность. (и возможность ограничения количества потоков)

- Работа через список Socks прокси 

- Совместимость в Windows XP/7/Server 2008

- Эмуляция работы браузера для защиты от бана поисковиков

- Возможность работы с Google, Yahoo, Bing



Я вижу процесс работы программы следующим образом. В программу загружается список ключевых слов и список прокси. Программа начинает сбор доменов по каждому ключевому слову. При этом используется 1 прокси на 1 поток (т.е. ключевое слово). Поиск по ключевому слову считается завершенным, когда программа пропарсила все страницы, выданные поисковиком.

Как только поиск по всем ключевым словам завершен, программа объединяет списки доменов по каждому ключевому слову в единый список, при этом должна быть предусмотрена возможность поиска и удаления дубликатов (т.е. каждый домен в едином списке должен быть уникален)

Опубликован 16.01.2014 в 18:54

Выберите способ верификации:

Обновите страницу после прохождения верификации.