Заказчик
Отзывы фрилансеров:
+ 11
- 0
Зарегистрирован на сайте 7 лет и 3 месяца
Бюджет:
25 000 руб
310.89 $ — 276.21 €
На основе сервиса dasha.ai разработать передачу голоса в текст.
1. WebRTC (или аналогичная технология): для захвата аудио из микрофона пользователя.
2. Real-time Speech-to-Text (STT).
3. Передача текста по api в любую LLM (OpenAI (GPT-4o, GPT-4, GPT-3.5-Turbo, Google (Gemini Pro/Flash), Anthropic (Claude 3 Haiku/Sonnet).
В dasha.ai уже есть весь функционал, нужно только настроить.
В дальнейшем нужно:
4. Загрузить промт в LLM из п. 3. Промт предоставляется. Цель обработка вопросов пользователя в диалогах продолжительностью до 3 минут.
5. Real-time Text-to-Speech (TTS). Передача текста в голос (озвучка ответов, полученных в результате обработки вопросов).
5. Оркестровка. Связать все компоненты вместе, управлять состоянием диалога, обрабатывать прерывания и обеспечить плавную передачу данных между сервисами.
Все пункты можно реализовать в рамках одного сервиса dasha.ai.
Цена указана за все пять пунктов.
Разделы:
Опубликован:
10.05.2025 | 12:53 [поднят: 10.05.2025 | 12:53] [последние изменения: 10.05.2025 | 12:56]