Нужен парсер для каталога автозапчастей с сайта
Что именно нужно парсить: для каждой доступной модели авто получить список всех автозапчастей из всех категорий. Нужен только список парсить карточки товаров не нужно, скачивать картинки не нужно.
Формат выдачи: практически любой любая БД (postgres, mysql, sqlite, etc) могу предоставить шаблон БД с готовой структурой таблиц или можете использовать свой. CSV файл тоже подойдет.
Пример CSV формата который нужен:
Vehicle Year; Vehicle Make; Vehicle Model; Category; Part Name; Part Number; Part URL; Part Image URL; Price
Например со страницы
Данные должны быть такими:
“2015”; “Ford”; “Explorer”; “Home/Replacement Parts/Air Brakes/Air Brake Anti-Lock Brake System/Air Valve”; “Air Seat Control Valves H/D Truck”; “TWD VEL032201”; “
“
“38.49”
Примечания:
1) Сайт не открывается с российских IP (через прокси или VPN работает нормально). Выбранному исполнителю можем предоставить прокси или VPN для работы.
2) Я не увидел как можно его распарсить через эндпоинты. Даже headless хром не работает, так как сайт на cloudflare. Но через puppeteer с отключенным headless парсится нормально. Тем не менее нужны обработчики различных ошибок вроде Access Denied так как cloudflare иногда блокирует запросы.
3) Есть небольшой скрипт (node JS / puppeteer) для парсинга других данных с этого сайта могу предоставить если нужно.
4) В целом парсинг будет заключаться в следующем:
- Перебирать все возможные модели авто
- Перебирать все категории которые есть для выбранной модели
- Для каждой категории парсить все страницы списка автозапчастей
Спасибо!