Приветствую
Необходим парсинг данных с сайта
partspitstop.com Это магазин запчастей. На главной странице сразу видны основные разделы: Polaris OEM Parts, Honda OEM Parts и так далее.
В некоторых случаях это подразделы, в некоторых — ссылки ведут на аналогичные основному подсайты, например:
www.brppartspitstop.com/c... На выходе нужно пройти по всем вложенным поразделам до схем запчастей и получить JSON, XML (формат не принципиален), который бы содержал следующие данные:
- производитель
- артикул
- цена
Отмечу, что изображения схемы, узлы, годы и прочее — ничего из этого не нужно.
Только текст: производитель (это вот как раз сами названия подразделов Polaris, Honda, …), артикул, цена.
Скриншот прикрепляю
В идеале, конечно, решение, которое можно запустить bash/sh скриптом на ubuntu + небольшой мануал, как его поднять на чистой системе. Как идея, selenium webdriver.