Нас интересует парсинг wordstat. Надо парсить Yandex Wordsat раздел история
Парсер должен быть без привлечения стороннего ПО. Только кодинг и желательно на PHP (если будете использовать другие инструменты должны так же указать в заявке).
однозначно придется писать
1. работу через прокси и желательно IPv6
2. работу с разгадывателями капчи их два варианта
- rucaptcha.com
- antigate.com
Какой из них подойдет лучше я не знаю но думаю что рукапча.
3. Кроме того скорее всего придется делать мультисессии то есть еще и подключать разные аккаунты yandex и через несколько потоков парсить.
------------- особенности проекта
Говорят что wordstat просто так не спарсить там какие то заморочки с куками и информацию они передают уже после загрузки страницы через Ajax и в зашифрованном через JS виде. Но и кур говорят что доят)
В общем я не в курсе, это надо тестить.
------------- суть работы парсера
Парсер должен передавать ключевую фразу в окошко поиска на странице
, для этого надо быть авторизованным пользователем в Yandex.
Еще перед первым запросом появится капча ее надо разгадать и после этого сервис будет доступен.
/*Попробуйте просто зайти и воспользоваться сервисом сами увидите что происходит.*/
После того как передали данные и получили результат. Надо спарсить данные со страницы.
Нас интересуют данные:
-выдаваемые периоды
- абсолютные значения по этим периодам.
------------- сохраняем спарсенные данные в БД
Мы их должны сохранять в свою БД в связке ключ + таблица с периодами.
То есть у нас две таблицы одна с ключами другая с периодами привязанными к ключу.
Собирать мы будем периодически данные дополняя новыми данными по периодам. Это нам нужно для отслеживания тенденций спроса по ключам.
----------------------------------------------------------------- ----------------------------------------------------------------- ------------------------------------------------------------
От вас сроки выполнения и стоимость и инструменты которыми будете пользоваться. Если не будет этих данных будем считать что вы спамер(