Необходимо реализовать скрипт-парсер однотипного контента с 2-х сайтов.
Исполнение на стороне -nix web-сервера (поэтому Python или PHP или Perl) ;
Требований по highload нет;
Python лучше всего использовать, так там есть специальный фреймворки: scrapy, grab.
В силу особенностей функционирования сайтов парсинг должен выполняться в этапа:
1) Парсинг контента шагами по расписанию;
2) Парсинг контактных данных шагами по расписанию;
По сути 2 скрипта работающих независимо и асинхронно.
3) Третий скрипт соединяет результаты работы 2-х скриптов в результирующую таблицу
и выкладывает результат в бд (mysql).
Конкретное ТЗ передается для ознакомления потенциальному исполнителю.
Предполагается долгосрочное сотрудничество и апдейт парсера под набор аналогичных сайтов.
Требования к соискателям:
- хороший опыт и портфолио аналогичных проектов (парсеров, грабберов);
- легкая коммуникация, пунктуальность по срокам;
- умение работать релизами (выдавать работу в виде рабочего прототипа на каждом шаге разработки,
постепенно наращивать возможности по мере процесса разработки разработки (3 шага).
Срок разработки 2-6 дней
Опубликован 14.08.2015 в 09:17 Последнее изменение: 14.08.2015 в 11:33