Заказчик
Отзывы фрилансеров:
+ 0
- 0
Зарегистрирован на сайте меньше месяца
Бюджет:
10 000 руб
127.92 $ — 109.39 €
Создать утилиту, работающую под Windows, которая:
Постоянно прослушивает системный аудиопоток (колонки/наушники).
Автоматически формирует аудиофрагменты, заканчивая каждый при тишине ≥ 1.5 сек (настраивается).
Выполняет транскрипцию аудио в текст (локально или через API).
Отправляет результат:
либо в консоль / HTTP endpoint,
либо сразу в LLM-модель (вопрос) с возможностью указания контекста.
Функциональные требования:
1. Аудиозахват:
Захват loopback аудио (системный звук: наушники/колонки).
Возможность указать устройство ввода (setDevice(name)).
Непрерывная работа (фоновая).
Детекция тишины:
Порог RMS и длительность паузы (по умолчанию: 1.5 сек).
Настраиваются через config.json.
2. Буферизация и формирование чанков:
Формирует аудиофрагмент от начала до обнаруженной тишины.
Отправка чанка в виде []byte. (должно происходить очень быстро)
3. Транскрипция:
Поддержка двух вариантов:
Whisper.cpp / OpenAI / HuggingFace API (предусмотреть конфигурацию).
Поддержка модели: small/medium (указывается в конфиге).
Язык распознавания: auto / принудительный (например, ru, en).
4. Отправка результата:
Варианты:
Вывод в stdout или в HTTP endpoint.
Отправка как вопрос в LLM (указывается URL/токен + необязательный контекст).
Возможность указать контекст (в конфиге или аргументом CLI).
Формат: {"question": "...", "context": "..."}
Критерий приема:
Запускаю утилиту...включаю видео на ютуб с вопросом...она слушает входящий аудиопоток...либо отправляет ЛЛМ либо текст в консоль. От Конца записанного вопроса до получения его в текстовом виде должно происходить менее ~0,2 секунд
Разделы:
Опубликован:
04.07.2025 | 14:02 [поднят: 04.07.2025 | 14:02]