研究課題/領域番号 |
16K00227
|
研究機関 | 山形大学 |
研究代表者 |
小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 音声認識 / ディープラーニング / 適応技術 / 音声区間検出 / 感情音声認識 / 話し言葉 |
研究実績の概要 |
近年ディープラーニングにもとづく音声認識が大きな成果を挙げているが,話し言葉についてはまだ十分な結果は得られていない.認識性能の低下の大きな原因として話者の個人性,多様な音響環境,多様な発話スタイルなどが挙げられる.これらを解決するために適応技術を中心とした手法を開発し話し言葉の認識性能の向上を図ることが本研究の目的である.今年度はまず以下の3点について検討した.すなわち1)クロス適応の高精度化,2)雑音下における音声区間検出の性能向上,3)感情音声認識の検討,である.1)について既に我々は異なる適応手法を組み合わせることによる相補的な効果を狙ったクロス適応法を提案している.しかしながら、高精度な認識結果をベースラインとした場合については検討していなかった.そこで,現時点で最高性能が得られている手法をベースラインとしてクロス適応の検討を行なった.その結果,このようなベースラインを使用した場合でも適応は有効であり,最終的に日本語話し言葉コーパスにおいて単語誤り率10.38%を得た.2)について雑音下音声認識において,音声区間検出(VAD)の精度が重要となる.そこでDNNを使用したVAD性能の向上について検討した.我々は従来DNN-HMMにおける話者適応について話者クラスモデルの有効性を示してきた.本研究ではそれを踏まえ,雑音クラスを設定しVADを行なった.評価は映画音声からの音声検出タスクを使用した.実験の結果EER(Equal Error Rate)で約5.4%と高い性能が得られた.以上よりクラスモデルの有効性を示した.3)について,まずは基礎的な検討として感情音声認識に関して,従来のGMM-HMMによる認識とDNN-HMMを用いた認識結果の比較検討を行なった.その結果前者で音素誤り率が23.32%に対し後者では15.95%と大幅に性能向上することを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は上記に示すように1)クロス適応の高精度化,2)雑音下における音声区間検出の検討,3)感情音声認識の検討,の3つの検討を行ない,いずれも評価実験の結果有効性が示されている.当初は話者クラスモデルを使用した話者適応を第一に着手することを想定していたが,事前検討により方針の変更を行ない上記3点の課題を優先させた.いずれも有効であり,おおむね順調に進捗していると考えられる.ただしDNN-HMMの話者適応に関しては,話者ベクトルを使った話者適応について開発および内部評価を進めているが,外部発表はまだとなっている.今後はこの方法の検討も進めて行きたい.
|
今後の研究の推進方策 |
上記研究実績に示した内容,すなわち,1)クロス適応の高精度化,2)雑音下における音声区間検出の検討,3)感情音声認識の検討,の3点のうち1)のクロス適応の高精度化については,おおむね検討を終えたので,細かい検討を除いては終了とする.一方2)や3)の課題については今後も改善の余地がある.2)については学習データがまだ2時間程度と少ない範囲となっている.学習量の割には高精度な結果が得られており,これは多様な環境を学習データが含んでいるためと想像されるが,今後は大規模なデータを使い,検討を進める予定である.その場合学習量が増えると最適なディープニューラルネットワークのパラメータ数も変わってくるので検討が必要となる.3)については認識性能が向上したとはいえ,まだ単語認識率で言えば低い範囲に留まっている.これについても,学習データの量や種類について様々な検討を行ない,性能向上を図る予定である.またDNN-HMMベースの音声認識の話者適応については,話者間相関を利用した話者ベクトルの利用の検討を行なっている.これがうまくいけば少量の適応データでの話者適応が可能となる.これを従来手法と比較しその性質を明らかにしたい.
|