Необходимо написать скрипт, который разбивает аудиозаписи на части и по частям отправляет на сервер Yandex SpeechKit Cloud, используя бинарный протокол. Скрипт устанавливается через pip, снабжен описанием. Забрать можно с
github.com/yandex/speechk... Собрать и поставить при помощи pip можно, например, так: git clone
github.com/yandex/speechk... cd speechkitcloud/python python ./setup.py sdist cd dist pip install Зависимости поставятся автоматически из репозитория pip. после этого можно вызвать справку по использованию: asrclient-cli.py --help распознать файл со звуком: asrclient-cli.py --key=активный-ключ-из-личного-кабинета sound.wav Звук из файла ожидается в определенном формате (audio/x-pcm;bit=16;rate=16000 один канал). Вы можете самостоятельно приводить свои файлы к нужному виду, например, так: sox sound.mp3 -t wav -c 1 --rate 16000 -b 16 -e signed-integer sound.wav На всякий случай, ссылки:
sox.sourceforge.net/ библиотека и утилиты для преобразования звука.
pypi.python.org/pypi/pip менеджер пакетов python. Мы проверили его работоспособность на всех основных платформах (Ubuntu/Mac/Win), известна проблема вывода в консоль в Windows("кракозябры" вместо русского текста utf8). При выводе в файл всё работает верно. РЕЗУЛЬТАТ: Автоматическая неограниченная загрузка аудиофайлов форматов (mp3, wav) различной длительности в Yandex SpeechKit Cloud. Т.е. я могу загружать много аудиофайлов (не по одному файлу, а сразу все файлы) разной длительности (от 30 секунд до 10 минут)в Yandex SpeechKit Cloud. На выходе получать танксрибацию – текст в формате txt (блокнот) для каждого аудиофайла отдельный с именем аналагичным имени самой аудио записи. Файл с текстом в txt сохраняется с ту же папку где и аудиозаписи.