本研究の目的は、ユーザが発話した音声を正しく認識できるか否かを判断し、認識できないと判断した場合にはその原因を識別して、ユーザに分かり易く通知する手法を確立することである。令和元年度の主な研究成果を以下にまとめる。 (1)認識率推定に用いる音響特徴量と推定モデルの検討:推定モデルとしてCRNN(Convolutional Recurrent Neural Network)を用いることを検討した。CRNNは、畳み込みニューラルネットワークと再帰型ニューラルネットワークを統合したものであり、変調スペクトルのような2次元特徴マップからなる時系列データの分析に適している。実験を行った結果、前年度の手法よりも高い推定精度が得られることを確認し、その研究成果を国内学会で発表した。 (2)誤認識原因識別に用いる音響特徴量と識別モデルの検討:誤認識は発話全体ではなく発話の一部に局所的に存在することに着目し、識別モデルであるBLSTM(Bidirectional Long Short-term Memory)にアテンションと呼ばれる注視機構を追加することを検討した。実験を行った結果、前年度の手法よりも高い識別精度が得られること、及び誤認識が存在する時間位置をおおよそ特定できることを確認し、その研究成果を査読付き国際会議論文として発表した。 (3)誤認識原因をユーザに分かり易く通知する手法の検討:話し方に起因する誤認識原因を対象とし、誤認識原因をユーザに分かり易く通知する手法を考案してPC上に実装した。 このように本研究では、高精度な認識率推定と誤認識原因識別を実現するために変調スペクトルと深層ニューラルネットワークを用いた手法を提案し、また誤認識原因をユーザに分かり易く通知する手法を考案してPC上に実装した。これらの研究成果から音声認識のユーザビリティの改善のための要素技術群を獲得した。
|