多選択肢タスクの具体的な例として、携帯音楽プレーヤ用の音声インタフェースを取り上げ、一人の話者が同一単語を多数発話したコーパスのプロトタイプを構築した。具体的には、25語を10発話ずつ発話したものを、のべ10名分収録した。これにより、多数発話コーパスの設計に関する知見が得られた。また、収録環境による認識精度への影響を考慮するために複数のマイク、複数の発話環境での収録も行った。具体的には、USBスピーカーホン、bluetoothヘッドセットで収録した。発話環境としては、高騒音下の環境として、交通量の激しい路上、自動車内、テレビ視聴時の居室などで収録した。さらに、日常生活における音声インタフェースの利用可能性を検証するため、実際の日常生活下でのデータ収録も行った。70時間以上のデータを収録し、収録機器、収音デバイスの検証、評価をおこなった。これらの研究により、モバイル環境においては、bluetoothマイクロホンが装着感、収音性能の面から有効であることがわかった。また、携帯音楽プレーヤの曲目選択というタスクでは、5000語程度で、現状のニーズには十分であることがわかった。認識率の調査からは、従来からも問題とされる子音などが認識率の悪化に関与していることがわかったが、一方で、音響モデル固有の問題もあることが判明した。 また、音声認識処理を評価するための新しいアプリケーションとして、音声ライフログデータの収録も行った。バイノーラルマイクを用い、収録方法を検討するため、70時間以上のデータを実際の生活環境で収録した。
|