研究課題/領域番号 |
15K00233
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理
|
研究機関 | 中部大学 (2017) 豊橋技術科学大学 (2015-2016) |
研究代表者 |
山本 一公 中部大学, 工学部, 准教授 (40324230)
|
研究分担者 |
中川 聖一 豊橋技術科学大学, リーディング大学院教育推進機構, 特命教授 (20115893)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
研究課題ステータス |
完了 (2017年度)
|
配分額 *注記 |
4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2017年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2016年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2015年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
|
キーワード | 音声認識 / 深層学習 / Deep Neural Network / 聴覚特性 / 音響特徴量 / フィルタバンク / 話者適応 |
研究成果の概要 |
現在、音声認識技術に深層学習が導入され、徐々に実用的に使われるようになってきているが、雑音環境下等での音声認識性能は未だ十分ではない。本研究の目的は、DNN (Deep Neural Network) 音響モデルに人間の聴覚特性を融合させることで、音声認識精度改善を得ることである。 本研究では、人間の聴覚特性を考慮した特徴抽出フィルタバンクを深層学習により自動的に学習する手法を提案した。この手法により、不特定話者音声認識に対する音声認識精度の改善を得た。また、提案手法により適応化データ量が少ない条件下における話者適応化においても認識精度の改善が得られ、効果的であるという結果が得られた。
|