2017 年度研究成果報告書

人間の聴覚特性を導入した深層ニューラルネットワークによる高精度な実環境下音声認識

研究課題

研究課題/領域番号	15K00233
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知覚情報処理
研究機関	中部大学 (2017) 豊橋技術科学大学 (2015-2016)
研究代表者	山本一公中部大学, 工学部, 准教授 (40324230)
研究分担者	中川聖一豊橋技術科学大学, リーディング大学院教育推進機構, 特命教授 (20115893)
研究期間 (年度)	2015-04-01 – 2018-03-31
キーワード	音声認識 / 深層学習 / Deep Neural Network / 聴覚特性 / 音響特徴量 / フィルタバンク
研究成果の概要	現在、音声認識技術に深層学習が導入され、徐々に実用的に使われるようになってきているが、雑音環境下等での音声認識性能は未だ十分ではない。本研究の目的は、DNN (Deep Neural Network) 音響モデルに人間の聴覚特性を融合させることで、音声認識精度改善を得ることである。本研究では、人間の聴覚特性を考慮した特徴抽出フィルタバンクを深層学習により自動的に学習する手法を提案した。この手法により、不特定話者音声認識に対する音声認識精度の改善を得た。また、提案手法により適応化データ量が少ない条件下における話者適応化においても認識精度の改善が得られ、効果的であるという結果が得られた。
自由記述の分野	音声情報処理