Villeroy & Boch
Вся нужная информация имеется на официальном сайте:
, поэтому парсить нужно будет только его.
Основной каталог находится по адресу:
Отсюда идет навигация по всем имеющимся категориям товаров на сайте.
Также есть доп. вкладка, которая не отражена в основном каталоге, там размещена часть комплектующих и аксессуаров:
эту вкладку обязательно нужно спарсить!
Требуется спарсить все карточки товаров из каждой категории (кроме вкладки «Сауна и инфракрасные кабины» ее не трогаем!). В самой карточке товара нам требуется следующая информация:
1. URL изображения
2. Название товара, брать из поля «Описание изделия» (на скриншоте выделено красным)
карточка товара на скриншоте.
3. Параметры (Коллекция, Описание изделия и т.д.)
4. Кликабельные «квадраты» (модификации) обведены красным цветом на скриншоте, по нажатию отображается артикул и цвет товара. Если больше одного цвета, то для каждого артикула дублируются все столбцы в файле парсера (скриншот файла excel).
5. Модель
6. Текстовое описание
7. Вкладка «аксессуары» (парсить только артикулы товаров)
8. Вкладка «Загрузка информации о продуктах» дублируется чуть ниже полем «Загрузки». В данном поле есть ссылка «Технические чертежи», но рисунки там представлены в формате PDF, нам же требуется JPG.
Соответственно, после парсинга и получения URL поля «Технические чертежи», требуется сохранить и конвертировать файлы из PDF в JPG.
Пример дредоставления результатов парсинга во вложении