Необходимо написать два парсера под твиттер и гугл поиск

Бюджет: по договоренности
Задача: ежедневно в HH:MM спарсить и посчитать количество упоминаний о заданных
сайтах (около 300 шт). Данные сохранить, рассчитать изменение в процентах и показать
пользователю в удобном виде (можно csv файл).

Список ссылок для парсинга будет находиться в файле и может обновляться.
Формат ссылок без кавычек и знаков:
cmegroup.com
lenta.ru
ozon.ru


Парсер для гугл поиск

Парсим количество упоминаний линка в разделе гугл новости за последние 24 часа.
Необходимо узнать количество уникальных упоминаний сайта за сутки. Смотрим все
новости на всех сайтах.

Например, при парсинге линка cmegroup.com
Получим результат: www.google.ru/search?
q=cmegroup.com&newwindow=1&hl=ru&tbm=nws&source=lnt&tbs=qdr:d&sa=X&ved=0ahUKEwi
8yojEg7vbAhUCMJoKHf7rA_EQpwUIHg&biw=1440&bih=752&dpr=1

На 5 мая имеем 3 упоминания. Значение 3 нужно сохранить.
Если на следующий день имеем 6 упоминаний, прирост составит 100%. Данное
значение нужно также сохранить.

Предусмотреть использование прокси, т.к. большое количество запросов будет выдавать
капчу. В случае отрицательного ответа со стороны сервера или появления капчи пробовать
с другим прокси.


Парсер твиттер

Парсим количество упоминаний линка за последние 24 часа (аналогично с гугл).

В отличие от гугл, твиттер может выдать множество постов одного юзера за последние 24
часа. Необходимо предусмотреть проверку уникальности профиля юзера в расчетах
упоминаний.

Также предусмотреть использование прокси.

Полученные данные по парсингу упоминаний в твиттер также сложить в файл и
реализовать расчет изменений в %.

Дополнительно:
1) Для проверки функционала можно реализовать работу без прокси с парсингом 2-4
линков.
2) Код должен быть чистым, удобным для доработок сторонним программистом.
Опубликован 06.07.2018 в 12:52

Выберите способ верификации:

Обновите страницу после прохождения верификации.