Парсинг данных с сайта автозапчастей

Бюджет: по договоренности
Заказчик выбрал исполнителя:
Danil Miftakhov  
Нужен парсер для каталога автозапчастей с сайта www.napaonline.com/

Что именно нужно парсить: для каждой доступной модели авто получить список всех автозапчастей из всех категорий. Нужен только список – парсить карточки товаров не нужно, скачивать картинки не нужно. 

Формат выдачи: практически любой – любая БД (postgres, mysql, sqlite, etc) – могу предоставить шаблон БД с готовой структурой таблиц или можете использовать свой. CSV файл тоже подойдет.

Пример CSV формата который нужен:
Vehicle Year; Vehicle Make; Vehicle Model; Category; Part Name; Part Number; Part URL; Part Image URL; Price

Например со страницы www.napaonline.com/en/sea...

Данные должны быть такими:
“2015”; “Ford”; “Explorer”; “Home/Replacement Parts/Air Brakes/Air Brake Anti-Lock Brake System/Air Valve”; “Air Seat Control Valves – H/D Truck”; “TWD VEL032201”; “www.napaonline.com/en/p/T...media.napaonline.com/is/i... “38.49”

Примечания:
1) Сайт не открывается с российских IP (через прокси или VPN работает нормально). Выбранному исполнителю можем предоставить прокси или VPN для работы.
2) Я не увидел как можно его распарсить через эндпоинты. Даже headless хром не работает, так как сайт на cloudflare. Но через puppeteer с отключенным headless парсится нормально. Тем не менее нужны обработчики различных ошибок вроде Access Denied так как cloudflare иногда блокирует запросы.
3) Есть небольшой скрипт (node JS / puppeteer) для парсинга других данных с этого сайта – могу предоставить если нужно.
4) В целом парсинг будет заключаться в следующем: 
- Перебирать все возможные модели авто
- Перебирать все категории которые есть для выбранной модели
- Для каждой категории парсить все страницы списка автозапчастей

Спасибо!
Опубликован 16.05.2022 в 10:13

Выберите способ верификации:

Обновите страницу после прохождения верификации.