Нужно наполнить config файл для скрипта сбора цен с сайтов по новым сайтам.
Скрипт тут
, файл update_prices.py.
Существующий, эталонный конфиг parser.config.
Задача: создать новый config файл по новым сайтам, который будет наполнен xpath путями и настройками. Протестировать работоспособность на нескольких примерах ссылок с сайта. Исключить ошибки.
Список сайтов
(может быть расширен впоследствии)
Предусмотрено тестовое задание: нужно обработать 5 сайтов, которые помечены словом test.
Присылаете конфиг по ним если всё ок, продолжаем по оставшимся.
Скрипт проверяет/берет (параметры, которые нужны в config файле):
• открывается ли указанная страница, нет ли там ошибки new_notFound
• price и currency всех товаров (их лотов), в зависимости от того, что доступно на сайте и что есть в БД, возможные значения 1 bottle, 2, 3, 6, 12, 24 bottles. Изменения фиксирует в new_price и new_currency.
• outOfStock. Если находит, что товар помечен, как отсутствующий, то ставит new_outOfStock=true.
• inStock Если у какого-либо E-shop специально помечено, что товар есть в наличии (в случаях, когда нет пометки, что товара нет в наличии)
• excludesTax / includesTax пометку, является ли взятая цена ценой с налогом или без налога
• new_image берет изображение товара
Доп комментарии, примечания:
• пакет, который использован для работы с xpath, для обращения к атрибутам использует img/@src
• изображения иногда не вытаскиваются, если xpath указан туда, где загрузка изображения lazy. Там, где url присутствует в месте без lazy лучше брать оттуда
• в parser.config файле есть мапинг валют. Если в мапинге нет того, что извлеклось с сайта, то в результе будет просто то, что извлеклось. Поэтому записи типа GBP -> GBP добавлять не надо.