Отзывы фрилансеров:
+ 1
- 0
Зарегистрирован на сайте 3 года и 3 месяца
Бюджет:
50 000 руб
630.40 $ — 538.43 €
Цель проекта: Создать парсер для автоматического сбора и обновления цен на электронную технику с площадок конкурентов и других источников. Полученные данные будут использоваться для формирования и обновления прайс-листа скупки товаров в едином файле.
Предмет парсинга: Цены на следующие категории товаров:
• Ноутбуки
• Компьютеры
• Планшеты
• Смартфоны
• Принтеры
• Игровые приставки
• Фотоаппараты
• объективы
• Наушники
Основные задачи парсера:
1. Сбор данных с указанных веб-ресурсов и других источников.
2. Анализ и обработка данных, включая проверку на дубликаты и приведение данных к единому формату.
3. Запись и обновление данных в файл (например, Excel, Google Sheets).
4. Автоматическое обновление данных с заданной периодичностью.
Функциональные требования:
Источники данных:
• Парсер должен работать с конкретными сайтами и площадками (список ресурсов будет предоставлен, например: Alfa.kz, OLX.kz, Kaspi объявления, официальные сайты конкурентов и другие).
• Возможность добавления новых источников в будущем.
Структура парсинга:
Для каждой категории товаров парсер должен собирать следующие данные:
• Название товара
• Бренд и модель
• Характеристики (память, процессор, диагональ экрана, цвет, год выпуска, и т. д.)
• Цена скупки (или минимальная/средняя цена на рынке)
• Источник данных (ссылка на страницу)
• Дата и время обновления
Логика работы:
• Парсер должен исключать дубликаты данных и учитывать актуальность цен.
• Возможность фильтрации товаров по категориям и характеристикам.
• Настраиваемые условия сбора данных, например:
• Регион: возможность ограничить поиск цен по определенным регионам.
• Диапазон цен: учитывать товары в определённом ценовом сегменте.
Хранение данных:
• Данные должны сохраняться в таблицу (форматы: Excel, Google Sheets).
• Периодическое обновление файла (например, раз в сутки или по запросу).
Автоматизация и обновления:
• Парсер должен запускаться автоматически по расписанию (например, через cron или другой планировщик задач).
• Возможность ручного запуска парсера для обновления данных.
• Логирование процесса парсинга (успешные и неудачные попытки сбора данных).
Дополнительные требования:
• Парсер должен быть устойчивым к изменениям в структуре сайтов (например, использовать XPath, CSS-селекторы или API сайтов).
• Обработка ситуаций с капчей и защитой сайтов (использование прокси, антибот-систем, задержки запросов).
Технические требования:
1. Язык программирования: Python (или любой другой на усмотрение разработчика).
2. Библиотеки: Использование актуальных и надёжных библиотек для парсинга (например, BeautifulSoup, Scrapy, Selenium, Requests).
3. Хранение данных:
• Формат файла: Excel (.xlsx) или Google Sheets.
• Подключение к Google API для обновления Google Sheets
4. Интерфейс: Необязательно, но если парсер предполагает запуск с панели управления, то предоставить простой интерфейс для запуска и мониторинга.
5. Производительность: Оптимизация скорости сбора данных и минимизация нагрузки на источники.
6. Отчёты и логи:
• Ведение логов с указанием ошибок, статуса и времени выполнения.
• Формирование отчёта об обновлении данных.
Результаты работы:
На выходе парсер должен:
• Создавать/обновлять файл с актуальными ценами на скупку товаров.
• Обновлять данные с заданной периодичностью.
• Генерировать лог-файл с описанием статуса работы и ошибок (если есть).
• Должна быть возможность пользоваться несколькими филиалами одновременно
Требования к разработчику:
1. Опыт работы с парсингом сайтов, в том числе с динамическими страницами и защитами от ботов.
2. Предоставить краткий отчёт по архитектуре парсера перед началом разработки.
3. Тестирование парсера на реальных данных и его настройка под наши требования.
4. Готовность к поддержке и доработке в случае изменения источников данных.
7. Сроки выполнения
• Ожидаемый срок реализации: 30 дней (обсуждается).
Разделы:
Опубликован:
19.12.2024 | 14:33 [поднят: 19.12.2024 | 14:33] [последние изменения: 19.12.2024 | 15:51]
Заказ находится в архиве