Требуется парсер для Яндекс.Маркет.
Язык: Python / Nodejs
Можно не заморачиваться с многопоточностью. Результаты должны сохраняться в csv.
Предполагается, что придется работать с эмуляцией браузера (Selenium, Browserless, Splash etc). Если знаете другой способ (private api, реверс инжиниринг мобильного приложения) только приветствуется.
Предполагается, что скрипт будет работать по расписанию на сервере и опрашивать до 1000 страниц (результатов поиска, пагинация не нужна). Поэтому работать оно должно с Selenium Hub (grid) или Browserless. Docker-compose для поднятия этих сервисов могу предоставить.
Самое главное: все это нужно для отслеживания позиций "спонсорских товаров". Т.е. прошу сразу смотреть именно на это, т.к. парсер без спонсорских товаров не нужен.
Что необходимо парсить:
1) Результаты поиска (1я страница)
Что собирать:
Название товара
Цена / Старая цена
Ссылка
Количество отзывов и оценка
Бренд / производитель
Позиция (1-2-3...)
Тип позиции (реклама ака "спонсорский товар" или seo) обязательный пункт. Без него задача считается невыполненной. Весь смысл в том, чтобы видеть спонсорские товары.
Бейджики / лейблы (Express / Выбор покупателей и т.п.)
В общем все, что доступно без отдельного хождения по каждому из товаров.
Регион: Москва
2) Брендовая полка в результатах поиска
(блок "Популярные предложения" или "спонсорские товары" см скриншоты в аттаче)
Что собирать:
Название товара
Цена / Старая цена
Ссылка
Количество отзывов и оценка
Бренд / производитель
Позиция (1-2-3...)
Бейджики / лейблы (Express / Выбор покупателей и т.п.)
В общем все, что доступно без отдельного хождения по каждому из товаров.
Регион: Москва
3) Товары из категории (1я страница)
пример:
market.yandex.ru/catalog-... Что собирать:
Название товара
Цена / Старая цена
Ссылка
Количество отзывов и оценка
Бренд / производитель
Позиция (1-2-3...)
Тип позиции (реклама ака "спонсорский товар" или seo) обязательный пункт. Без него задача считается невыполненной. Весь смысл в том, чтобы видеть спонсорские товары.
Бейджики / лейблы (Express / Выбор покупателей и т.п.)
В общем все, что доступно без отдельного хождения по каждому из товаров.
Регион: Москва
2) Брендовая полка в категории
(блок "Популярные предложения" или "спонсорские товары" см скриншоты в аттаче)
пример:
market.yandex.ru/catalog-... Что собирать:
Название товара
Цена / Старая цена
Ссылка
Количество отзывов и оценка
Бренд / производитель
Позиция (1-2-3...)
Бейджики / лейблы (Express / Выбор покупателей и т.п.)
В общем все, что доступно без отдельного хождения по каждому из товаров.
Регион: Москва
В целом могу принять решение написанное и на другом языке (nodejs / php).