→

AI VOICE | SeamlessM4T | Перевод голосом видеоконференций Real-Time

Ссылка на заказ

Бюджет: До 100 ₽/час

Задача: Разработка плагина для OBS и расширения для Chrome, позволяющих переводить и озвучивать речь стримера на разные языки в реальном времени сопровождая субтитрами, кешированный перевод любого видео в интернете (аналог функции перевода в Яндекс браузере). Потребуется минимальная MVP web морды для работы со стороны пользователя и Админа

Функционал REAL-TIME:

- Автоматическая транскрипция звука+ генератор субтитров с возможностью редактировать* и ставить паузы в любом месте текста
- AI Телесуфлер с возможностью генерировать и редактировать сценарий онлайн (GPT). Переход к любой части сценария с помощью Маркеров
- Библиотека произношения и фонетики IPA
- Поддержка настройки VPN
- Синхронизация губ в реальном времени* (опционально)
- Разделение дикторов (диаризация)
- Поддержка SSML
- Обработка текста на русском и английском языке: распознавание синонимов, сокращений, жаргонизмов
- Исправление опечаток:
– Автоматическое исправление опечаток с помощью системного словаря;
– Автоматическое формирование пользовательского словаря исправлений на основе фраз, используемых в сущностях;
- Разметка диалогов
– Разбиение на группы предобученным классификатором*
– Выявление ключевых фраз
– Кластеризация фраз с помощью k-means и других ML алгоритмов
– Очистка текста
- NLU-алгоритм: Создание суфлера на основе клиентской базы диалогов
- Определение тем диалога (в реальном времени в т.ч.):
– Обработка и аналитика диалога (идентификатор беседы) – > создание психологического портрета зрителя;
– Рейтинг ключевых слов определяет лучшие ключевые слова в беседе;
– Анализ настроений (Извлекать из текста положительные, отрицательные и нейтральные утверждения, чтобы менять контекст в суфлере)
– Формирование тем для диалога на основе настроения, предпочтений и ключевых слов (с помощью телесуфлера);
– Трекеры: функция анализа разговоров, которую возможно использовать для автоматического распознавания фраз и их значения в разговорах.
– Индивидуальный трекер: группа фраз, идентифицирующих характеристику или событие, которые хотим отслеживать в разговорах.
- Использование метрик для оценки точности распознавания речи: WRR, WER
- Возможность собирать данные о зрителях, чтобы улучшить работу сервиса. В том числе

Технологии:

1. Whisper ASR
2. DeepL Translator XL
3. Синтез речи: Google Text-to-Speech, Microsoft Azure Text to Speech, Nvidia NeMo, [SeamlessM4T]

Опубликован 08.09.2023 в 20:12 Последнее изменение: 04.12.2023 в 04:38

Посмотреть другие заказы

Откликнуться Создать заказ

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
по скану паспорта

заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.