Исправление Python скрипта транскрибации аудио через Whisper (длинные аудио)

d
Заказчик
Отзывы фрилансеров: + 2 - 0
Зарегистрирован на сайте 6 лет и 5 месяцев
Бюджет: 6 000 руб
75.25 $ — 64.13 €
Исполнитель определен: Роман Чемисов  
Есть Python-код, который делает транскрибацию аудио и видео через Whisper, используя библиотеку `faster-whisper`.

**Как работает скрипт:**

1. Определяет, доступен ли Nvidia CUDA, и если есть — использует его для запуска через GPU. Если нет – запускает через CPU.
2. Принимает на вход аудио или видео (MP3, WAV, MP4, MKV и т.д. ).
3. Извлекает звук (если видео), очищает и улучшает его с помощью FFmpeg — усиливает громкость, убирает шум, выравнивает звук.
4. Если запись длиннее чем 5 минут, разбивает её на равные части (например по 30 мин или 5 мин) с перекрытием в 30 сек.
5. Транскрибирует каждую часть по отдельности, добавляя таймкоды. Каждая транскрибированная часть выгружается в папку скрихпта
6. Склеивает части в итоговый текст, удаляя повторы на стыках.

**Особенности:**

- Скрипт использует самую мощную модель whisper (whisper-large-v3-turbo), из за этого транскрибация происходит долго. 3.5 часа аудио будут обрабатываться примерно 1.5-2 часа
- Скрипт написан через нейронки, поэтому код может быть громодким. Длина кода 1900+ строк

**Проблема**

Скрипт хорошо работает с аудио длительностью до 1.5 часа. При тесте на аудио 3.5 часа в итоговый файл попадает только последняя транскрибированная часть (в текущей версии кода). При моих попытках исправить, скрипт просто склеивал все транскрибированные части вместе, игнорируя функцию удаления повторов на стыках, которые образуются при перекрытиях 30 сек.

Аудио 3.5 часа тестил с разбиением аудио на отрывки по 30 мин. При тесте аудио до 1.5 часа с разбиением на отрывки по 30 мин все работает идеально.

Я подозреваю что проблема возникает из за перегрузки памяти. Но возможно она в другом, я не спец по коду))

На длинных аудио (3.5 часа) скрипт игнорирует функцию удаления повторов на стыках. Это основная сложность. Примеры проблемных стыков аудио прикрепляю к задаче, чтобы вы посмотрели.

Хотел бы услышать ваши предложения по обработке такого текста и в чем вообще может быть проблема.
Разделы:
Опубликован:
28.07.2025 | 12:41 [поднят: 28.07.2025 | 12:41] [последние изменения: 28.07.2025 | 13:23]

Теги: написать программу, создать программу, разработать программу, разработчики программ, прикладной программист

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».