Skip to content

yandex-cloud-examples/yc-speechkit-streams-recognizer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

SpeechKit Streaming Recognizer

Процесс распознавания длинных аудио файлов



Этот скрипт приведен для демонстрации потокового распознавания.

Скрипт записывает голос через микрофон и передает его на распознавание в сервис SpeechKit, результат распознавания выводится в консоль.

Скрипт написан на Python поэтому может быть легко доработан и оптимизирован под ваш сценарий.



Установка

Можно склонировать текущий репозиторий и перейти в папку cloud_api/output, где уже имеется скрипт test.py. Необходимо лишь установить зависимости при помощи команды:

pip install -r requirements.txt

Либо, подготовить среду исполнения самостоятельно:

  1. Склонируйте репозиторий Yandex Cloud API:
git clone https://github.com/yandex-cloud/cloudapi
  1. Установите пакет grpcio-tools:
pip install grpcio-tools
  1. Перейдите в директорию со склонированным репозиторием Yandex Cloud API, создайте директорию output и сгенерируйте в ней код интерфейса клиента:
cd <путь_к_директории_cloudapi>
mkdir output
python -m grpc_tools.protoc -I . -I third_party/googleapis \
  --python_out=output \
  --grpc_python_out=output \
    google/api/http.proto \
    google/api/annotations.proto \
    yandex/cloud/api/operation.proto \
    google/rpc/status.proto \
    yandex/cloud/operation/operation.proto \
    yandex/cloud/ai/stt/v3/stt_service.proto \
    yandex/cloud/ai/stt/v3/stt.proto

В результате в директории output будут созданы файлы с интерфейсом клиента: stt_pb2.py, stt_pb2_grpc.py, stt_service_pb2.py, stt_service_pb2_grpc.py и файлы зависимостей.

  1. Скопируйте файл cloudapi/output/test.py из текущего репозитория в вашу директорию output.

  2. Установите зависимости:

pip install pyaudio

Использование

  1. Необходимо создать сервисную учетную запись, а также – назначить роль ai.speechkit-stt.user.

  2. Для созданной сервисной учетной записи необходимо получить API-ключ, его секрет потребуется для запуска скрипта.

  3. Запустите скрипт test.py, указав в качестве аргумента секрет API-ключа:

python3 test.py --secret AQVNwRHSFFJJoLPQWMPxxxxxxxxxxxxxxxxxxxxxx
  1. Говорите в микрофон, на экране консоли должен отображаться результат распознавания:

Результат распознавания