研究課題/領域番号 |
17K00224
|
研究機関 | 筑波大学 |
研究代表者 |
山田 武志 筑波大学, システム情報系, 准教授 (20312829)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 音声認識 / ユーザビリティ / 認識率推定 / 誤認識原因識別 / 雑音 / 発話様式 |
研究実績の概要 |
本研究の目的は、ユーザが発話した音声が正しく認識できるか否かを判断し、認識できないと判断した場合にはその原因を識別して、ユーザに分かり易く通知する手法を確立することである。平成30年度は、前年度に引き続き、認識率推定、及び誤認識原因識別に用いる音響特徴量と推定モデルの検討を行った。平成30年度の主な研究成果を以下にまとめる。 (1)認識率推定に用いる音響特徴量と推定モデルの検討:前年度の初期評価の結果に基づき、音声区間検出や感情音声認識の分野で有効性が示されている変調スペクトルを音響特徴量として用いることを検討した。変調スペクトルは各種音響特徴量の時間変化特性を周波数領域で表現したものであり、誤認識を含む音声の時間特徴と強い関係があると考えられる。また、推定手法として時間フレーム毎に誤認識の有無を二値推定する手法をあらたに考案し、その比較評価を行った。 (2)誤認識原因識別に用いる音響特徴量と識別モデルの検討:話し方に起因する主な誤認識原因としては、早口、間延び、フィラー、言い淀みなどが挙げられる。これらは発話速度とその局所的変化により捉えることができると考えられる。そこで、(1)と同様に音響特徴量として変調スペクトルを用いることを検討した。識別手法として再帰型ニューラルネットワークの一種であるBLSTM(Bidirectional Long Short-term Memory)を用いて誤認識原因識別実験を行った結果、変調スペクトルは従来の音響特徴量よりも優れていることを確認した。その研究成果を査読付き国際会議論文として発表した。 (3)誤認識原因をユーザに分かり易く通知する手法の検討:話し方に起因する誤認識原因を対象とし、ユーザが容易に理解でき、また話し方を適切に改善できるような通知方法の検討を開始した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成30年度の計画として挙げた、認識率推定、及び誤認識原因識別に用いる音響特徴量と推定モデルの検討を着実に実施し、有望な音響特徴量と推定手法・識別手法をそれぞれ見出すことができた。また、その成果を査読あり国際会議論文として発表した。以上のことから、おおむね順調に進展していると判断した。
|
今後の研究の推進方策 |
認識率推定、及び誤認識原因識別に用いる音響特徴量と推定モデルの検討を引き続き行う。特に推定モデルについては、アテンション機構の導入、再帰型ニューラルネットワークと畳み込みニューラルネットワークの統合など、高度化・高性能化を図る。また、話し方に起因する誤認識原因を対象とし、誤認識原因をユーザに分かり易く通知する手法を考案し、最終的にタブレットPCなどの携帯端末に本機能を実装して評価する。
|
次年度使用額が生じた理由 |
平成30年度の計画として音声データ収録とラベリングを挙げ、その作業補助者への謝金を計上していたが、前年度と同様に既存のデータベースを用いて各種実験を行った。この経費は平成31年度に当初目的に沿って使用する予定である。
|