Заказ закрыт
Парсер сайта на Python (Scrapy)

Бюджет: по договоренности
Нужен парсер который будет собирать данные о товарах с сайта leroymerlin.ru и экспортировать их в YML формат.

Учитывая что сайт показывает максимум 1000 страниц пагинации, то нужно чтобы парсер заходил во все категории, подкатегории, подподкатегории и далее, а также заходил на все страницы пагинации и собирал ссылки на товары. Потом заходил на страницы товаров и собирал нужные данные:
- Название товара
- Артикул
- Принадлежность товара к категории
- Бренд
- Цена
- Старая цена
- Все фото ссылками
- Описание
- Характеристики

Должна быть возможность использовать прокси.
Также нужно реализовать не через Selenium, потому что товаров очень много и это будет медленно и трудозатратно. Нужно пробовать через API.

Важно чтобы он был реализован на Scrapy.

Документация по YML формату yandex.ru/support/marketp...
Пример файла drive.google.com/file/d/1...

ID категории должен формироваться из названия категории в виде хэша и только числа. Ну или любой другой способ, нужно чтобы было целое положительное число длиной до 18 цифр — и записать его в атрибут id. Запись числа не должна начинаться с нуля — например, 055 не подойдет. Также нужно учесть, что если например на каком то сайте в некоторых категориях есть подкатегории с одинаковым названием: skr.sh/sHm7JKhLh4a , skr.sh/sHmCAvH4ooM
К ID таких категорий добавить дополнительную цифру 1, 2, 3 и т.д. Либо может быть для формирования ID категории брать не только название категории, но и также название родительской категории.

Должна быть возможность добавлять и другие данные по документации Яндекс.Маркета, например model, weight, dimensions и т.д. И эти данные должны появляться в итоговом файле.

Для того чтобы хватило памяти при парсинге такого количества товаров, то нужно чтобы это было сделано через постобработку – писать данные в файл и потом его обрабатывать построчно.
Опубликован 24.02.2023 в 13:07
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.