このコードは、日本GUIDE/SHARE委員会の2020年度タスク活動での検証を目的に作成したアプリケーションです。
企業の社内研修で、研修講師が話した声をリアルタイムに音声認識させ、受講者が匿名で音声テキストに対して「おもしろい」や「わからない」と反応したり、チャットボックスにテキストで質問をすることで、講師と受講者の間のコミュニケーションを促進し、受講者の理解度に合わせた研修運営を行うことを支援します。
このアプリケーションを活用した「IP-024 ビジネスシーンにおける音声認識技術の活用」チームの論文は、JGS研究2020のIP2部会にて優秀論文賞を受賞しました。
- 音声認識技術は、Web Speech APIを使用しています。Web Speech APIは、現時点ではGoogle Chromeブラウザでのみサポートされているため、それ以外のブラウザでは音声認識機能は利用できません。Google Chromeブラウザはデスクトップ版でのみ動作検証を行っており、モバイル版では動作検証は行っておりません。音声認識させたい講師は、Google Chromeがインストールされて、マイク等で音声入力が可能なPCを使用してください。音声認識機能を利用しない場合は、Google Chrome以外の主要ブラウザでも利用可能です(すべてのブラウザで動作確認をしているわけではありません)。
- 講師が発話した内容の音声テキスト、おもしろいボタンやわからないボタンのクリック情報、チャットボックスに入力したテキストは、Node.jsのSocket.IOモジュールを使用して、リアルタイムに共有(アプリケーションを表示している全員に対してブロードキャスト)されます。アプリケーションは、講師および受講者が参照可能なWebアプリケーション・サーバーで動作させてください。私たちのタスクでは、IBM CloudのCloud Foundry Publicでアプリケーションを動作させました。
- 画面に出力された音声テキストやチャットメッセージとその投稿日時、おもしろいボタンやわからないボタンが実行された回数は、クリップボードにCSV形式でコピーすることが出来ます(Click to Copy Voice Text to Clipboardボタンでコピー)。ログを残したい場合はご利用ください。画面に出力されているHTML情報を取得しているだけですので、自分が画面を表示する前のログを遡って取得することは出来ません。
- デモ用にアプリケーションはHerokuでホスティングしており、このリポジトリにコミットしたコードはHerokuに自動的にデプロイされます。無料枠で動かしている都合上、一定期間アクセスがないとスリープ状態となり、初回アクセス時だけ画面が開くのが遅い、コード内に認証認可制御を入れていないので、同時に複数の方が利用されると音声認識結果や質問等が意図せず混ざってしまう等の利用上の制約がありますが、どのようなアプリかはこちらのURLでご確認いただけます。
- 音声認識対象とする音声には業務上の秘密などを含めないことをお勧めします。
- タスク活動での限定的な検証を目的に作成したアプリケーションですので、本番環境での本格活用などは想定しておりません。