Требуется сложный парсинг:
1. даю 5-7 источников-каталогов, парсим оттуда 300-500 тыс урл
2. заходим по каждому урлу и пытаемся спарсить телефоны и емайлы (отсекаем телефоны городские, оставляем только моб.)
3. обрабатываем каждый домен через who.is и пытаемся вырвать емайлы, моб. телефоны регистратора
шаги 4-6. пока еще не знаю точно что будет в них, какие у вас есть предложения, чтобы на выходе я должен будут получить почти 100% контактные данные владельцев доменов.
Например парсить не только тел и емайл, а другие контакты, вконтакте, телеграмы, инстаграммы и т.д.
обязательно умение работать с прокси и с капчами, через сервис рукапч например.
выслушаю рекомендации разработчиков, ваши мысли каким путем лучше это сделать.
На выходе база sql, в формате id; url; tel,tel,tel; email,email,email; другой канал связи;
инструменты любые, качество первостепенно, понимаю что время стоит денег, сколько вы считаете стоит такая работа в вашем исполнении? и за какой период вы готовы сделать это?
Предоплаты нет.
желательный формат ответа:
1. путь решения для максимального КПД (конечная цель получение максимально точных данных чтобы можно было достучатся до владельца домена)
2. Сроки
3. Цена
Опубликован 12.12.2018 в 17:38 Последнее изменение: 12.12.2018 в 17:39