RESTful API «Speech-to-Text»: Портфолио фрилансера Владимир Козловский 07.04.2016, работа №2 - FL.RU
К списку работ
Владимир Козловский
Владимир Козловский

RESTful API «Speech-to-Text»

RESTful API сервис, который переводит человеческую речь в текст. Путём реверс-инжиниринга браузера Google Chrome был получен URL адрес, на который браузер отправляет аудио-файл для распознавания. Также был разработан веб-клиент, который работает в браузере, записывает звук с микрофона пользователя (с помощью WebRTC) и отправляет каждую секунду на сервер (по WebSocket) в формате wav. По окончанию записи переданные wav файлы "склеиваются" на сервере, конвертируются в формат flac (сжатие без потери качества), а затем отправляются в Google для анализа, после чего API сервис возвращает распознанный текст. Благодаря передаче записанного звука в режиме реального времени достигается работа без задержек (только закончили говорить, тут же получили результат). Сервис построен на базе Python 3.5, Asyncio, aiohttp, Motor, aioredis, Celery. Работает асинхронно и выдерживает высокие нагрузки.