AI VOICE | SeamlessM4T | Перевод голосом видеоконференций Real-Time

Откликнуться
D
Заказчик
Отзывы фрилансеров: + 0 - 0
Зарегистрирован на сайте 17 лет и 7 месяцев
Бюджет: До 100 ₽/час
Задача: Разработка плагина для OBS и расширения для Chrome, позволяющих переводить и озвучивать речь стримера на разные языки в реальном времени сопровождая субтитрами, кешированный перевод любого видео в интернете (аналог функции перевода в Яндекс браузере). Потребуется минимальная MVP web морды для работы со стороны пользователя и Админа

Функционал REAL-TIME:

- Автоматическая транскрипция звука+ генератор субтитров с возможностью редактировать* и ставить паузы в любом месте текста
- AI Телесуфлер с возможностью генерировать и редактировать сценарий онлайн (GPT). Переход к любой части сценария с помощью Маркеров
- Библиотека произношения и фонетики IPA
- Поддержка настройки VPN
- Синхронизация губ в реальном времени* (опционально)
- Разделение дикторов (диаризация)
- Поддержка SSML
- Обработка текста на русском и английском языке: распознавание синонимов, сокращений, жаргонизмов
- Исправление опечаток:
    – Автоматическое исправление опечаток с помощью системного словаря;
    – Автоматическое формирование пользовательского словаря исправлений на основе фраз, используемых в сущностях;
- Разметка диалогов
    – Разбиение на группы предобученным классификатором*
    – Выявление ключевых фраз
    – Кластеризация фраз с помощью k-means и других ML алгоритмов
    – Очистка текста
- NLU-алгоритм: Создание суфлера на основе клиентской базы диалогов
- Определение тем диалога (в реальном времени в т.ч.):
    – Обработка и аналитика диалога (идентификатор беседы) – > создание психологического портрета зрителя;
    – Рейтинг ключевых слов определяет лучшие ключевые слова в беседе;
    – Анализ настроений (Извлекать из текста положительные, отрицательные и нейтральные утверждения, чтобы менять контекст в суфлере)
    – Формирование тем для диалога на основе настроения, предпочтений и ключевых слов (с помощью телесуфлера);
    – Трекеры: функция анализа разговоров, которую возможно использовать для автоматического распознавания фраз и их значения в разговорах.
    – Индивидуальный трекер: группа фраз, идентифицирующих характеристику или событие, которые хотим отслеживать в разговорах.
- Использование метрик для оценки точности распознавания речи: WRR, WER
- Возможность собирать данные о зрителях, чтобы улучшить работу сервиса. В том числе 

Технологии:

1. Whisper ASR
2. DeepL Translator XL 
3. Синтез речи: Google Text-to-Speech, Microsoft Azure Text to Speech, Nvidia NeMo, [SeamlessM4T]
Разделы:
Опубликован:
08.09.2023 | 20:12 [поднят: 08.09.2023 | 20:12] [последние изменения: 04.12.2023 | 04:38]
Откликнуться

Выберите способ верификации:

Обновите страницу после прохождения верификации.

Посмотреть другие заказы Разместить заказ

Теги:

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».