Заказчику требовалось автоматически получать актуальные данные о товарах с сайта Komus.ru (название, артикул, цена, наличие) через защищённый API-эндпоинт. Основная сложность — ресурс защищён Cloudflare, который блокирует стандартные запросы и детектирует автоматизацию. Задача: создать стабильный инструмент, который обходит защиту, извлекает чистые JSON-данные по коду товара и сохраняет их для дальнейшей интеграции с учётом, аналитикой или прайс-агрегаторами.
Решение
• Реализовала парсер на Python + Selenium с эмуляцией реального браузера: ротация user-agent, отключение флагов автоматизации, маскировка navigator.webdriver.
• Настроила динамическое ожидание для прохождения проверок Cloudflare.
• Добавила обработку ошибок: при неудаче сохраняется HTML-снапшот страницы для отладки, предусмотрен fallback-режим с видимым браузером для ручного контроля.
• Реализовала парсинг и валидацию JSON-ответа, извлечение ключевых полей товара и сохранение в структурированный JSON-файл.
• Обеспечила гибкость запуска: режим headless для продакшена и видимый режим для отладки, автоустановка драйвера через webdriver-manager.