YaProxy - поисковый робот: Портфолио фрилансера Роман Романов 03.10.2014, работа №18 - FL.RU
К списку работ
Роман Романов
Роман Романов

YaProxy - поисковый робот

image
Поисковый робот для Яндекса. Задача - на входе получает список фраз (Excel), формирует на основании настраиваемого списка дополнительных вариаций к фразам окончательные фразы поиска, запрашивает яндекс - получает страницы выдачи, анализирует, складывает в настраиваемое хранилище. Цель - определить насколько удачна рекламная компания фирмы, и что видит пользователь по интересующему запросу. Кто "обогнал", кто имеет больше шансов получить заказ, и на каком месте находиться сама фирма. К сожалению, роботы, в терминологии Яндекса называемые «хорошими», т.е. прошедшие регистрацию в Яндексе, несколько не удовлетворяют по двум причинам - фраз требуется больше 1000, а «хороший» робот может получить только тысячу в сутки, и результат XML запроса для робота может отличаться от вида страницы, полученной обычным «человеческим» путем. А интересует как раз именно то, что видит пользователь. Это все описано на Яндексе «Лицензия на поиск» (http://company.yandex.ru/legal/termsofuse/). Саму контору интересует в Яндексе только своя контора - более ничего. Суть в том, что интересуют ссылки определенного формата, а не просто нахождение сайта конторы на какой-то позиции. По сути, заменяет 10 человек, которые целый и каждый день сидели бы и вводили искомые фразы в браузере.