Приветствую
Необходим парсинг данных с сайта
Это магазин запчастей нескольких брендов. На главной странице сразу видны основные бренды: Polaris OEM Parts, Honda OEM Parts и так далее. Часть брендов — это подразделы основного домена, часть — ведут на аналогичные основному подсайты, например:
Нужно пройти по всем брендам, всем годам, всем моделям и всем узлам и на выходе получить JSON или XML (формат не принципиален), который бы содержал следующие данные:
- бренд
- название
- артикул
- цена
Изображения, схемы, узлы, годы и прочее — ничего из этого не нужно.
Только текстовые данные: бренд (это вот как раз сами названия брендов запчастей Polaris, Honda, …), название, артикул, цена.
Важно очистить эти данные на предмет дублей. Потому что это запчасти и одна и та же запчасть может встречаться в разных узлах много раз. Уникальный идентификатор запчасти — это артикул. Итоговые данные должны содержать только уникальные запчасти в рамках бренда.
Скриншот, что есть что, прикрепляю.
Приоритет для меня — стабильность и воспроизводимость решения. В идеале — получить готовое решение, которое можно запустить bash/sh скриптом на ubuntu + небольшой мануал, как его поднять на чистой системе. Как идея, selenium webdriver.
Задача хоть и обычная, но по факту оказывается нетривиальной. Уже несколько специалистов брались и не получалось: то Cloudflare оказывался непробиваем, то стабильность источника хромала, то ещё что-то. Поэтому прошу соотнести свои силы перед ответом. Готов платить за конечный реальный результат, а не за попытку.