2017 Fiscal Year Research-status Report
誤認識原因の識別と通知に基づく音声認識のユーザビリティ改善
Project/Area Number |
17K00224
|
Research Institution | University of Tsukuba |
Principal Investigator |
山田 武志 筑波大学, システム情報系, 准教授 (20312829)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 音声認識 / ユーザビリティ / 認識率推定 / 誤認識原因識別 / 雑音 / 発話様式 |
Outline of Annual Research Achievements |
本研究の目的は、ユーザが発話した音声が正しく認識できるか否かを判断し、認識できないと判断した場合にはその原因を識別して、ユーザに分かり易く通知する手法を確立することである。平成29年度の主な研究成果を以下にまとめる。 (1)認識率推定に用いる音響特徴量と推定モデルの検討 音響特徴量として、周波数スペクトルに基づく静的・動的特徴量とそれらの統計的特徴量、及び感情音声認識で実績のあるINTERSPEECH 2009 EmotionChallenge feature set、また推定モデルとして、サポートベクトル回帰、多層パーセプトロン、再帰型ニューラルネットワーク等を用いて認識率推定実験を行い、今後の比較検討の基礎となる実験データを得た。また、推定手法として、一般的な高次元回帰手法に加えて、音声認識結果に付与される時間フレーム毎の単語信頼度の推定に基づく手法をあらたに考案し、その初期評価を行った。 (2)誤認識原因識別に用いる音響特徴量と識別モデルの検討、及び誤認識原因をユーザに分かり易く通知する手法の検討 平成30年度以降に実施する計画であったが、前倒しで検討を開始した。まず、雑音に起因する誤認識に対しては、誤認識を回避することができる適切な発話音量をリアルタイムに推定し、ユーザに通知する手法を提案し、実携帯端末を用いたユーザ評価を含む有効性評価を行った。その研究成果を査読付き国際会議論文として発表した。また、話し方に起因する誤認識に対しては、誤認識の原因となり得る発話特徴を定量化し、それらを音響特徴量から識別する手法を提案し、その有効性評価を行った。その研究成果を査読なし国内会議論文として発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成29年度の計画として挙げた、認識率推定に用いる音響特徴量と推定モデルの検討において、今後の比較検討の基礎となる実験データを着実に得ることができた。また、当初は平成30年度以降の計画として挙げた、誤認識原因識別に用いる音響特徴量と識別モデルの検討、及び誤認識原因をユーザに分かり易く通知する手法の検討を前倒しで開始し、その成果を査読あり国際会議論文、査読なし国内会議論文として発表した。以上のことから、おおむね順調に進展していると判断した。
|
Strategy for Future Research Activity |
認識率推定に用いる音響特徴量と推定モデルの検討を引き続き行う。前年度に得た実験データを用いて認識率推定精度を比較検証し、推定精度が最高となる音響特徴量と推定モデルを見出す。十分な推定精度が得られない場合は、他の音響特徴量や推定モデルの適用も検討する。 また、誤認識原因識別に用いる音響特徴量と識別モデルの検討を引き続き行う。前年度に試すことができなかった音響特徴量と識別モデルに対して識別実験を行い、最適なものを見出す。また、ユーザにとって理解し易く、かつ認識率と強い相関を持つような、より適切な誤認識原因の指標を考案する。
|
Causes of Carryover |
平成29年度の計画として音声データ収録とラベリングを挙げ、その作業補助者への謝金を計上していたが、まずは既存のデータベースを用いて各種実験を行った。この経費は平成30年度に当初目的に沿って使用する予定である。
|
Research Products
(2 results)