Парсинг контактов пиарщиков с сайтов / либо купим данные

Бюджет: по договоренности
Собираем каталог компаний с пресс-службами и пресс-секретарями.
Хотим запустить краулер, который будет обходить корпоративные сайты Рунета, заходить в раздел Контакты и искать там слова "пресс-секретарь", "PR-менеджер", "пресса", "PR" и пр (список предоставим).
Если такие слова в разделе контакты есть, то заносим сайт компании и тайтл сайта (там обычно содержится название компании с пояснением деятельности) в отчет.
В идеале хотелось бы забирать с этого сайта из раздела Контакты также имя и контактные данные пиарщика (имейл, телефон). Но есть опасение, что будем цеплять мусор – сложно будет описать логику по которой точно забирать нужную информацию. Если не получится, то подойдет и вариант просто идентифицировать сайт как "содержащий информацию о пресс-службе" и как писал выше заносить в отчет только Тайтл сайта и урл. 
В качестве источника ссылок для переходов можно использовать раздел Бизнес Яндекс.Каталога, или другой каталог организаций, который вы порекомендуете.

Также готовы рассмотреть вариант покупки уже готовых подобных данных:
контактные данные корпоративных пресс-секретарей, пиарщиков (не PR агентства) с указанием компании, сайта, имени, должности, телефона и имейла специалиста.
Рассмотрим ваши предложения по цене, формату и объему данных.
Опубликован 04.04.2017 в 20:05

Выберите способ верификации:

Обновите страницу после прохождения верификации.