Задача: Обучить нейросеть на моих голосовых данных (30 минут дикторской записи) для синтеза речи в реальном времени.
Локальность: Полностью оффлайн-решение (без API, cloud и т.д.).
Платформа: Windows/Linux (есть GPU).
Задержка: Минимизировать (в идеале <1 сек).
Интеграция: Готовый Python-модуль или API для голосового робота.
2. Технологии (на выбор исполнителя)
Предпочтительные фреймворки:
Coqui TTS (VITS)
Silero (если хватит качества)
VITS / VALL-E (если исполнитель уверен в результате)
Оптимизация: ONNX, TensorRT или квантизация для ускорения.
3. Данные
30 минут чистого аудио (формат WAV, 16 kHz, моно).
Пример текста для обучения прилагается.
4. Этапы работы
Анализ данных – проверка пригодности записей.
Обучение модели – fine-tuning выбранного TTS.
Тестирование – оценка натуральности и задержки.
Интеграция – выгрузка модели в рабочий формат + пример кода для запуска.
Разделы:
Опубликован:
04.05.2025 | 18:53 [поднят: 04.05.2025 | 18:53]
Заказ находится в архиве