Задача: Разработка плагина для OBS и расширения для Chrome, позволяющих переводить и озвучивать речь стримера на разные языки в реальном времени сопровождая субтитрами, кешированный перевод любого видео в интернете (аналог функции перевода в Яндекс браузере). Потребуется минимальная MVP web морды для работы со стороны пользователя и Админа
Функционал REAL-TIME:
- Автоматическая транскрипция звука+ генератор субтитров с возможностью редактировать* и ставить паузы в любом месте текста
- AI Телесуфлер с возможностью генерировать и редактировать сценарий онлайн (GPT). Переход к любой части сценария с помощью Маркеров
- Библиотека произношения и фонетики IPA
- Поддержка настройки VPN
- Синхронизация губ в реальном времени* (опционально)
- Разделение дикторов (диаризация)
- Поддержка SSML
- Обработка текста на русском и английском языке: распознавание синонимов, сокращений, жаргонизмов
- Исправление опечаток:
Автоматическое исправление опечаток с помощью системного словаря;
Автоматическое формирование пользовательского словаря исправлений на основе фраз, используемых в сущностях;
- Разметка диалогов
Разбиение на группы предобученным классификатором*
Выявление ключевых фраз
Кластеризация фраз с помощью k-means и других ML алгоритмов
Очистка текста
- NLU-алгоритм: Создание суфлера на основе клиентской базы диалогов
- Определение тем диалога (в реальном времени в т.ч.):
Обработка и аналитика диалога (идентификатор беседы) – > создание психологического портрета зрителя;
Рейтинг ключевых слов определяет лучшие ключевые слова в беседе;
Анализ настроений (Извлекать из текста положительные, отрицательные и нейтральные утверждения, чтобы менять контекст в суфлере)
Формирование тем для диалога на основе настроения, предпочтений и ключевых слов (с помощью телесуфлера);
Трекеры: функция анализа разговоров, которую возможно использовать для автоматического распознавания фраз и их значения в разговорах.
Индивидуальный трекер: группа фраз, идентифицирующих характеристику или событие, которые хотим отслеживать в разговорах.
- Использование метрик для оценки точности распознавания речи: WRR, WER
- Возможность собирать данные о зрителях, чтобы улучшить работу сервиса. В том числе
Технологии:
1. Whisper ASR
2. DeepL Translator XL
3. Синтез речи: Google Text-to-Speech, Microsoft Azure Text to Speech, Nvidia NeMo, [SeamlessM4T]
Разделы:
Опубликован:
08.09.2023 | 20:12 [поднят: 08.09.2023 | 20:12] [последние изменения: 04.12.2023 | 04:38]