Нужен парсер который будет собирать данные о товарах с сайта leroymerlin.ru и экспортировать их в YML формат.
Учитывая что сайт показывает максимум 1000 страниц пагинации, то нужно чтобы парсер заходил во все категории, подкатегории, подподкатегории и далее, а также заходил на все страницы пагинации и собирал ссылки на товары. Потом заходил на страницы товаров и собирал нужные данные:
- Название товара
- Артикул
- Принадлежность товара к категории
- Бренд
- Цена
- Старая цена
- Все фото ссылками
- Описание
- Характеристики
Должна быть возможность использовать прокси.
Также нужно реализовать не через Selenium, потому что товаров очень много и это будет медленно и трудозатратно. Нужно пробовать через API.
Важно чтобы он был реализован на Scrapy.
Документация по YML формату
Пример файла
ID категории должен формироваться из названия категории в виде хэша и только числа. Ну или любой другой способ, нужно чтобы было целое положительное число длиной до 18 цифр — и записать его в атрибут id. Запись числа не должна начинаться с нуля — например, 055 не подойдет. Также нужно учесть, что если например на каком то сайте в некоторых категориях есть подкатегории с одинаковым названием:
,
К ID таких категорий добавить дополнительную цифру 1, 2, 3 и т.д. Либо может быть для формирования ID категории брать не только название категории, но и также название родительской категории.
Должна быть возможность добавлять и другие данные по документации Яндекс.Маркета, например model, weight, dimensions и т.д. И эти данные должны появляться в итоговом файле.
Для того чтобы хватило памяти при парсинге такого количества товаров, то нужно чтобы это было сделано через постобработку писать данные в файл и потом его обрабатывать построчно.