Требуется разработка грамотного ТЗ на создание нижешописанного веб приложения.
Необходима программа или веб приложение способное собирать базы в сети исходя из заданных условий поиска. В нашем случае собираются мейлы необходимых стран.
Подключаем базу Geo IP
Используем WATIR
По Geo IP базе определяем диапазон поиска web ресурсов необходимой страны для сбора мейлов
По средству WATIR достигается автоматическое брожение по сайтам и сбор мейлов.
Формирование базы мейлов и необходимые функции:
Удаление дублей.
База формируется в два TXT файла. Первый файл содержит только мейлы, второй мейлы с сайтами их происхождения (смотреть сортировка по ресурсам).
Сортировка по ресурсам, имеется в виду формирование полученных мейлов в список вида:
forum.buy.ru
asd@asd.ru
kjrbgj@kdjsf.ru
labas.ru
ban@ban.ru
nab@nab.ru
mdn@mme.ru
и так далее.
Необходимо иметь возможность добавления новых мейлов к уже собранной базе с удалением возможных дублей.
Ведением статистики и возможность отделение новых мелов от старых (можно реализовать по средству создания новых ТХТ файлов, то есть два файла постоянные, первый с сортировкой по ресурсам происхождения, второй со всеми собранными мейлами за все время поиска и каждый новый поиск будет дополнять эти два файла, а так же создавать новый с уникальными мейлами, добытыми в каждый новый поиск).
Разумеется при смене страны поиска мы автоматически получаем новую папку с вышеупомянутыми файлами.
Так же необходимо провести исследование на возможность подключения тех или иных сайтов, не доступных для просмотра без регистрации, на предмет автоматизации логина через WATIR (здесь имеется в виду возможность создания некой базы ресурсов, вида: ссылка, логин, пароль и сбора с них мелов, с возможностью самостоятельного программирования ввода в поля логи, пароль)
Обязательное условие установка сборщика на сервер и работа через веб интерфейс.