Есть база данных наименований электронных компонентов 250 000 штук. Формат excel.
Сайт efind.ru по каждому наименованию в поисковой выдаче показывает список поставщиков с информацией по запрашиваемой позиции: производитель, цена, наличие, описание.
Необходимо написать парсер, который будет запрашивать каждую позицию в поисковике efind.ru и по каждой позиции сохранить значение "описание" и "производитель" в исходной excel файл.
Как правило на каждую позицию довольно много поставщиков и с разным описанием. Необходимо найти из всех самое длинное описание, при этом в нем не должно быть слов (список скину исполнителю).
По значению "производитель" аналогично. Необходимо сохранять самое длинное.
Сбор этой информации планируется сделать разово.
P.S. этот проект размещался ранее. Один исполнитель пропал, второй смог спарсить 40 000 позиций, после чего парсер перестал работать (вероятно кончились прокси ~40). Есть исходник на питоне. Можно рассмотреть вариант доработки.
Оплата через безопасную сделку или по факту выполнения работы.
Опубликован 14.09.2015 в 11:46
Заказ находится в архиве