Задание на разработку скрипта парсинга Wazzup

Бюджет: 8 000 руб
103.27 $ – 86.51 €
Техническое задание на разработку скрипта парсинга Wazzup

Существующая инфраструктура: Компания использует CRM-систему amoCRM  для управления лидами. Для интеграции популярных мессенджеров (Telegram и др.) применяется сервис Wazzup, собирающий переписку менеджеров в едином интерфейсе CRM. Требуется разработать скрипт парсинга этих переписок с выделением роли отправителя (клиент/менеджер) для подготовки обучающей выборки нейросети.

Основные задачи проекта
• Разработать скрипт парсинга чатов из Wazzup: обеспечить сбор и обработку переписок, выделение отправителя и получателя.
• Определять роль отправителя в каждом сообщении по содержимому (например, полю «title» в блоке сообщения) и помечать сообщения как type: "customer" или type: "manager".
• Проверить возможности официального Wazzup API: выяснить, какие данные можно получить через ключ API , и при необходимости использовать альтернативные методы (парсинг HTML-интерфейса или эмуляцию действий через Selenium).
• Сформировать итоговый массив данных в формате JSON для обучения нейросети, продумать структуру объектов выходных данных.

Технические детали

Скрипт должен быть реализован на подходящем языке (например, Python 3) с использованием библиотек для HTTP-запросов и парсинга HTML (BeautifulSoup, Selenium или аналогичные). Интерфейс Wazzup динамический, блоки сообщений не имеют уникальных идентификаторов, поэтому отправителя необходимо определять по содержимому блоков (обычно поле title содержит имя отправителя). Ответы менеджера будут помечаться как manager, сообщения клиента — как customer. Для доступа можно попробовать использовать официальный API Wazzup (документация описывает три способа подключения через API-ключ, WAuth и Sidecar API ), но если API не позволяет выгрузить всю историю сообщений, следует использовать HTML-парсинг веб-интерфейса (например, с помощью Selenium). Скрипт должен последовательно проходить по всем чатам и извлекать всю доступную историю переписки.

Формат выходных данных

Данные диалогов необходимо сохранять в формате JSON. JSON (JavaScript Object Notation) — это открытый текстовый формат обмена данными, основанный на структурированных «ключ–значение» . Каждый диалог представляется как массив объектов сообщений. У каждого объекта следует указать как минимум поля type (со значением "customer" или "manager") и message (текст сообщения). По желанию можно добавить поля timestamp или другие метаданные. Пример структуры диалога в JSON:

[
  {"type": "customer", "message": "Здравствуйте! Я хочу уточнить..."},
  {"type": "manager",  "message": "Добрый день! Чем могу помочь?"},
  {"type": "customer", "message": "Мне нужен продукт X, расскажите подробнее."},
  {"type": "manager",  "message": "Конечно, продукт X..."}
]

Важно, чтобы JSON был корректно сформирован и не содержал лишних элементов (например, индексов сообщений или технической разметки интерфейса).

Подготовка данных для обучения нейросети

Полученные JSON-диалоги можно использовать для обучения чат-бота. Нужно разбить переписки на пары «запрос-ответ»: каждое сообщение type: "customer" выступает входом (запросом), а следующие за ним сообщение(я) type: "manager" — ожидаемым ответом. Такую выборку можно подавать на обучение модели типа Seq2Seq (LSTM, трансформер и т.д.) или на дообучение (fine-tuning) современных LLM (например, GPT-подобных моделей). Обязательны шаги предварительной обработки: очистка текста (удаление лишних символов, эмодзи), нормализация и токенизация. При необходимости можно объединять несколько последовательных сообщений менеджера в один ответ, чтобы обучение было более осмысленным. Цель — получить модель, способную генерировать релевантные ответы вместо менеджера.

Требуемые результаты
• Исходный код скрипта парсинга (с комментариями) и инструкция по его запуску (описание входных данных и зависимостей).
• JSON-файл(ы) с извлечёнными диалогами, где каждое сообщение содержит поля type и message (и опционально метки времени).
• Краткое описание формата выходных данных и рекомендаций по их использованию при обучении модели (структура JSON, пример записи, возможные варианты агрегации реплик).

Источники: Wazzup поддерживает интеграцию с CRM (например, amoCRM) для объединения чатов из разных мессенджеров  . Формат JSON широко используется для обмена данными в веб-приложениях . Для интеграции с Wazzup существуют API-ключи и методы подключения, но они в основном ориентированы на отправку сообщений .
Опубликован 12.02.2026 в 18:09 Последнее изменение: 12.02.2026 в 18:09

Выберите способ верификации:

Обновите страницу после прохождения верификации.