2016 年度実施状況報告書

ディープラーニングに基づく音声認識の音響モデル適応の研究

研究課題

研究課題/領域番号	16K00227
研究機関	山形大学
研究代表者	小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	音声認識 / ディープラーニング / 適応技術 / 音声区間検出 / 感情音声認識 / 話し言葉
研究実績の概要	近年ディープラーニングにもとづく音声認識が大きな成果を挙げているが，話し言葉についてはまだ十分な結果は得られていない．認識性能の低下の大きな原因として話者の個人性，多様な音響環境，多様な発話スタイルなどが挙げられる．これらを解決するために適応技術を中心とした手法を開発し話し言葉の認識性能の向上を図ることが本研究の目的である．今年度はまず以下の３点について検討した．すなわち1)クロス適応の高精度化，2)雑音下における音声区間検出の性能向上，3)感情音声認識の検討，である．1)について既に我々は異なる適応手法を組み合わせることによる相補的な効果を狙ったクロス適応法を提案している．しかしながら、高精度な認識結果をベースラインとした場合については検討していなかった．そこで，現時点で最高性能が得られている手法をベースラインとしてクロス適応の検討を行なった．その結果，このようなベースラインを使用した場合でも適応は有効であり，最終的に日本語話し言葉コーパスにおいて単語誤り率10.38%を得た．2)について雑音下音声認識において，音声区間検出(VAD)の精度が重要となる．そこでDNNを使用したVAD性能の向上について検討した．我々は従来DNN-HMMにおける話者適応について話者クラスモデルの有効性を示してきた．本研究ではそれを踏まえ，雑音クラスを設定しVADを行なった．評価は映画音声からの音声検出タスクを使用した．実験の結果EER(Equal Error Rate)で約5.4%と高い性能が得られた．以上よりクラスモデルの有効性を示した．3)について，まずは基礎的な検討として感情音声認識に関して，従来のGMM-HMMによる認識とDNN-HMMを用いた認識結果の比較検討を行なった．その結果前者で音素誤り率が23.32%に対し後者では15.95%と大幅に性能向上することを確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は上記に示すように１）クロス適応の高精度化，２）雑音下における音声区間検出の検討，３）感情音声認識の検討，の３つの検討を行ない，いずれも評価実験の結果有効性が示されている．当初は話者クラスモデルを使用した話者適応を第一に着手することを想定していたが，事前検討により方針の変更を行ない上記３点の課題を優先させた．いずれも有効であり，おおむね順調に進捗していると考えられる．ただしDNN-HMMの話者適応に関しては，話者ベクトルを使った話者適応について開発および内部評価を進めているが，外部発表はまだとなっている．今後はこの方法の検討も進めて行きたい．
今後の研究の推進方策	上記研究実績に示した内容，すなわち，１）クロス適応の高精度化，２）雑音下における音声区間検出の検討，３）感情音声認識の検討，の3点のうち1)のクロス適応の高精度化については，おおむね検討を終えたので，細かい検討を除いては終了とする．一方２）や３）の課題については今後も改善の余地がある．２）については学習データがまだ２時間程度と少ない範囲となっている．学習量の割には高精度な結果が得られており，これは多様な環境を学習データが含んでいるためと想像されるが，今後は大規模なデータを使い，検討を進める予定である．その場合学習量が増えると最適なディープニューラルネットワークのパラメータ数も変わってくるので検討が必要となる．３）については認識性能が向上したとはいえ，まだ単語認識率で言えば低い範囲に留まっている．これについても，学習データの量や種類について様々な検討を行ない，性能向上を図る予定である．またDNN-HMMベースの音声認識の話者適応については，話者間相関を利用した話者ベクトルの利用の検討を行なっている．これがうまくいけば少量の適応データでの話者適応が可能となる．これを従来手法と比較しその性質を明らかにしたい．

研究成果
(9件)

すべて 2017 2016 その他

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 3件) 学会発表 (4件) (うち国際学会 1件) 備考 (2件)

[雑誌論文] Large-scale multimodal movie dialogue corpus2016
- 著者名/発表者名
  Ryu Yasuhara, Masashi Inoue, Ikumi Suga and Tetsuo Kosaka
- 雑誌名
  
  Proc. of the 18th ACM International Conference on Multimodal Interaction
  
  巻: - ページ: 414-415
- DOI
  10.1145/2993148.2998523
- 査読あり / オープンアクセス
[雑誌論文] Many-to-many voice conversion using hidden Markov model-based speech recognition and synthesis2016
- 著者名/発表者名
  Y. Aizawa, M. Kato and T. Kosaka
- 雑誌名
  
  The Journal of the Acoustical Society of America
  
  巻: 140 ページ: 2964
- DOI
  10.1121/1.4969167
- 査読あり / オープンアクセス
[雑誌論文] Voice activity detection in movies using multi-class deep neural networks2016
- 著者名/発表者名
  I. Suga, R. Yasuhara, M. Inoue and T. Kosaka
- 雑誌名
  
  The Journal of the Acoustical Society of America
  
  巻: 140 ページ: 3116
- DOI
  10.1121/1.4969758
- 査読あり / オープンアクセス
[学会発表] DNNによる音声認識を用いた感情音声の声質変換の検討2017
- 著者名/発表者名
  笹田拓臣，相澤佳孝, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学
- 年月日
  2017-03-07 – 2017-03-07
[学会発表] 高精度な初期モデルを用いた教師なしクロス適応の評価2016
- 著者名/発表者名
  冨田健斗, 高木瑛, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会秋季講演論文集
- 発表場所
  富山大学
- 年月日
  2016-09-14 – 2016-09-16
[学会発表] HMM認識・合成による感情音声の声質変換の性能向上2016
- 著者名/発表者名
  相澤佳孝, 中川由暁, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会秋季講演論文集
- 発表場所
  富山大学
- 年月日
  2016-09-14 – 2016-09-16
[学会発表] Voice Conversion of emotional speech using hidden Markov model-based speech recognition and synthesis2016
- 著者名/発表者名
  Tetsuo Kosaka, Yoshiaki Nakagawa and Masaharu Kato
- 学会等名
  Proc. of 22nd International Congress on Acoustics
- 発表場所
  Buenos Aires, Argentina
- 年月日
  2016-09-05 – 2016-09-09
- 国際学会
[備考] 小坂研究室
- URL
  http://speech-lab.yz.yamagata-u.ac.jp/index.html
[備考] Ｍｏｖｉｅ　Ｄｉａｌｏｇｕｅ　Ｃｏｒｐｕｓ
- URL
  http://i.yz.yamagata-u.ac.jp/moviedialcorpus/

2016 年度 実施状況報告書

ディープラーニングに基づく音声認識の音響モデル適応の研究

研究代表者

小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Large-scale multimodal movie dialogue corpus2016

著者名/発表者名

雑誌名

DOI

[雑誌論文] Many-to-many voice conversion using hidden Markov model-based speech recognition and synthesis2016

著者名/発表者名

雑誌名

DOI

[雑誌論文] Voice activity detection in movies using multi-class deep neural networks2016

著者名/発表者名

雑誌名

DOI

[学会発表] DNNによる音声認識を用いた感情音声の声質変換の検討2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 高精度な初期モデルを用いた教師なしクロス適応の評価2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMM認識・合成による感情音声の声質変換の性能向上2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Voice Conversion of emotional speech using hidden Markov model-based speech recognition and synthesis2016

著者名/発表者名

学会等名

発表場所

年月日

[備考] 小坂研究室

URL

[備考] Ｍｏｖｉｅ Ｄｉａｌｏｇｕｅ Ｃｏｒｐｕｓ

URL

2016 年度実施状況報告書

小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)

[備考] Ｍｏｖｉｅ　Ｄｉａｌｏｇｕｅ　Ｃｏｒｐｕｓ