2017 Fiscal Year Research-status Report

ディープラーニングに基づく音声認識の音響モデル適応の研究

Research Project

Project/Area Number	16K00227
Research Institution	Yamagata University
Principal Investigator	小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	音声認識 / ディープラーニング / 適応技術 / 音声区間検出 / 感情音声認識 / 話し言葉
Outline of Annual Research Achievements	近年ディープラーニングにもとづく音声認識が大きな成功を収めている．既に短いフレーズの音声認識は実用レベルに達しており，スマートスピーカーなどへ応用されている．一方，よりくだけた発話を行なう話し言葉についてはまだ十分な結果は得られていない．話し言葉の音声認識が実用化されれば，会議，講演，授業などの自動書き起こし，音声対話システムの応用など様々な面での応用が期待される．話し言葉における認識性能の低下の大きな原因として，話者の個人性，多様な音響環境，多様な発話スタイルなどが挙げられる．これらを解決するために適応技術を中心とした手法を開発し話し言葉の認識性能の向上を図ることが本研究の目的である．今年度は昨年度からの継続で以下の3点について検討した．すなわち1)クロス適応の高精度化，2)雑音下における音声区間検出の性能向上，3)感情音声認識の検討，である． 1)について既に我々は異なる適応手法を組み合わせることによる相補的な効果を狙ったクロス適応法を提案している．しかしながら，従来法と比較しての詳細な評価や認識結果等の分析を十分行なっていなかったため，これらの検討を行なった． 2)について雑音下音声認識において，音声区間検出(VAD)の精度が重要となる．そこでこれまでDNNを使用したVAD性能の向上について検討を行なってきた．本年度は特にこれまで十分な性能が得られていない楽器音や歌声環境でのVADについて検討した． 3)について，感情音声認識に関して，DNN-HMMを用いた認識を検討してきたが，本年度は学習データの検討や適応について検討した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度は昨年から継続して１）クロス適応の高精度化，２）雑音下における音声区間検出の検討，３）感情音声認識の検討，の３つの検討を行なった．１）については詳細な評価をして十分に結果が揃ったため，研究のまとめとして査読付き論文に投稿している．２）については多クラス分類におけるクラス設定方法の検討や新たな特徴量などの検討を行ない様々な知見が得られた．結果として環境音を含む学習データの増加は性能向上に大きく貢献することが分かった．またクラス分類については，どのような特徴の信号を分類するかにより，最適な分類方法が異なることが分かった．３）については，学習データの検討として新たな感情音声コーパスを追加して検討を行なった．さらにDNNの適応法の検討，言語モデルの検討を行なった．適応については話者適応，コーパス適応，感情適応，話者＋感情適応の４種類について比較実験を行なった．いずれも効果があるが，特に話者適応で良好な結果が得られた．一方話者＋感情適応の場合，十分な適応性能が得られなかったが，これは適応データが不足したことによると考えられる．いずれも良好な結果が出ており，順調に進捗していると考えられる．特に３）の感情音声認識における話者適応において，適応前の単語誤り率38.1%に対し，適応後は23.05%と高い効果が得られることが分かった．
Strategy for Future Research Activity	本年度は最終年度であり，これまで検討してきた内容のまとめを行なっていく．これまで得られた結果の学会発表，論文投稿を行なう上で，結論を得るために不足している部分の各種実験などを行なう．上記研究実績に示した内容，すなわち，１）クロス適応の高精度化，２）雑音下における音声区間検出の検討，３）感情音声認識の検討，の3点のうち1)のクロス適応の高精度化については論文投稿，掲載をもってひとまず終了とする．２）については，本年度は大きな成果が得られたが，スムージングの問題など，いくつか未解決の問題が残っている．特にスムージングについては，効果があるもののアドホックな手法を採用していた．この場合，実験条件が変わると効果も変化すると考えられるため，機械学習などの利用を検討する．３）については，様々な適応を検討し十分効果が得られることが分かった．今後は言語モデルの改良，感情強度を考慮した適応などを検討し，更なる性能向上を目指す．また論文などへの投稿のため各種比較実験を行ない，提案法の有効性の確認を行なう．

Research Products
(7 results)

All 2018 2017 Other

All Presentation (6 results) Remarks (1 results)

[Presentation] DNNを用いた教師なしクロス適応の性能評価2018
- Author(s)
  冨田建斗，加藤正治，小坂哲夫
- Organizer
  情報処理学会東北支部研究会
[Presentation] 自発対話音声を用いた感情認識の学習データによる検討2018
- Author(s)
  真壁大介，加藤正治，小坂哲夫
- Organizer
  情報処理学会東北支部研究会
[Presentation] 映画からのマルチモーダル対話コーパスの作成2017
- Author(s)
  井上雅史，安原龍，菅郁巳，小坂哲夫
- Organizer
  人工知能学会全国大会
[Presentation] 感情音声データベースJTESを用いた感情音声認識におけるDNN-HMM音響モデル適応の検討2017
- Author(s)
  相澤佳孝，小坂哲夫，加藤正治，能勢隆
- Organizer
  日本音響学会秋季講演論文集
[Presentation] DNNを用いた映画の音声区間検出におけるクラス分類の検討2017
- Author(s)
  菅郁巳，小坂哲夫，井上雅史
- Organizer
  日本音響学会秋季講演論文集
[Presentation] 感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討2017
- Author(s)
  相澤佳孝，小坂哲夫，加藤正治，能勢隆
- Organizer
  情報処理学会研究報告
[Remarks] 小坂研究室
- URL
  http://speech-lab.yz.yamagata-u.ac.jp/

2017 Fiscal Year Research-status Report

ディープラーニングに基づく音声認識の音響モデル適応の研究

Principal Investigator

小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)

Current Status of Research Progress

Reason

Research Products

[Presentation] DNNを用いた教師なしクロス適応の性能評価2018

Author(s)

Organizer

[Presentation] 自発対話音声を用いた感情認識の学習データによる検討2018

Author(s)

Organizer

[Presentation] 映画からのマルチモーダル対話コーパスの作成2017

Author(s)

Organizer

[Presentation] 感情音声データベースJTESを用いた感情音声認識におけるDNN-HMM音響モデル適応の検討2017

Author(s)

Organizer

[Presentation] DNNを用いた映画の音声区間検出におけるクラス分類の検討2017

Author(s)

Organizer

[Presentation] 感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討2017

Author(s)

Organizer

[Remarks] 小坂研究室

URL

小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)