研究課題/領域番号 |
16K00227
|
研究機関 | 山形大学 |
研究代表者 |
小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 音声認識 / ディープラーニング / 適応技術 / 音声区間検出 / 感情音声認識 / 話し言葉 |
研究実績の概要 |
近年ディープラーニングにもとづく音声認識が大きな成功を収めている.既に短いフレーズの音声認識は実用レベルに達しており,スマートスピーカーなどへ応用されている.一方,よりくだけた発話を行なう話し言葉についてはまだ十分な結果は得られていない.話し言葉の音声認識が実用化されれば,会議,講演,授業などの自動書き起こし,音声対話システムの応用など様々な面での応用が期待される.話し言葉における認識性能の低下の大きな原因として,話者の個人性,多様な音響環境,多様な発話スタイルなどが挙げられる.これらを解決するために適応技術を中心とした手法を開発し話し言葉の認識性能の向上を図ることが本研究の目的である. 今年度は昨年度からの継続で以下の3点について検討した.すなわち1)クロス適応の高精度化,2)雑音下における音声区間検出の性能向上,3)感情音声認識の検討,である. 1)について既に我々は異なる適応手法を組み合わせることによる相補的な効果を狙ったクロス適応法を提案している.しかしながら,従来法と比較しての詳細な評価や認識結果等の分析を十分行なっていなかったため,これらの検討を行なった. 2)について雑音下音声認識において,音声区間検出(VAD)の精度が重要となる.そこでこれまでDNNを使用したVAD性能の向上について検討を行なってきた.本年度は特にこれまで十分な性能が得られていない楽器音や歌声環境でのVADについて検討した. 3)について,感情音声認識に関して,DNN-HMMを用いた認識を検討してきたが,本年度は学習データの検討や適応について検討した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は昨年から継続して1)クロス適応の高精度化,2)雑音下における音声区間検出の検討,3)感情音声認識の検討,の3つの検討を行なった.1)については詳細な評価をして十分に結果が揃ったため,研究のまとめとして査読付き論文に投稿している.2)については多クラス分類におけるクラス設定方法の検討や新たな特徴量などの検討を行ない様々な知見が得られた.結果として環境音を含む学習データの増加は性能向上に大きく貢献することが分かった.またクラス分類については,どのような特徴の信号を分類するかにより,最適な分類方法が異なることが分かった.3)については,学習データの検討として新たな感情音声コーパスを追加して検討を行なった.さらにDNNの適応法の検討,言語モデルの検討を行なった.適応については話者適応,コーパス適応,感情適応,話者+感情適応の4種類について比較実験を行なった.いずれも効果があるが,特に話者適応で良好な結果が得られた.一方話者+感情適応の場合,十分な適応性能が得られなかったが,これは適応データが不足したことによると考えられる. いずれも良好な結果が出ており,順調に進捗していると考えられる.特に3)の感情音声認識における話者適応において,適応前の単語誤り率38.1%に対し,適応後は23.05%と高い効果が得られることが分かった.
|
今後の研究の推進方策 |
本年度は最終年度であり,これまで検討してきた内容のまとめを行なっていく.これまで得られた結果の学会発表,論文投稿を行なう上で,結論を得るために不足している部分の各種実験などを行なう. 上記研究実績に示した内容,すなわち,1)クロス適応の高精度化,2)雑音下における音声区間検出の検討,3)感情音声認識の検討,の3点のうち1)のクロス適応の高精度化については論文投稿,掲載をもってひとまず終了とする.2)については,本年度は大きな成果が得られたが,スムージングの問題など,いくつか未解決の問題が残っている.特にスムージングについては,効果があるもののアドホックな手法を採用していた.この場合,実験条件が変わると効果も変化すると考えられるため,機械学習などの利用を検討する.3)については,様々な適応を検討し十分効果が得られることが分かった.今後は言語モデルの改良,感情強度を考慮した適応などを検討し,更なる性能向上を目指す.また論文などへの投稿のため各種比較実験を行ない,提案法の有効性の確認を行なう.
|