2016 Fiscal Year Research-status Report

ディープラーニングに基づく音声認識の音響モデル適応の研究

Research Project

Project/Area Number	16K00227
Research Institution	Yamagata University
Principal Investigator	小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	音声認識 / ディープラーニング / 適応技術 / 音声区間検出 / 感情音声認識 / 話し言葉
Outline of Annual Research Achievements	近年ディープラーニングにもとづく音声認識が大きな成果を挙げているが，話し言葉についてはまだ十分な結果は得られていない．認識性能の低下の大きな原因として話者の個人性，多様な音響環境，多様な発話スタイルなどが挙げられる．これらを解決するために適応技術を中心とした手法を開発し話し言葉の認識性能の向上を図ることが本研究の目的である．今年度はまず以下の３点について検討した．すなわち1)クロス適応の高精度化，2)雑音下における音声区間検出の性能向上，3)感情音声認識の検討，である．1)について既に我々は異なる適応手法を組み合わせることによる相補的な効果を狙ったクロス適応法を提案している．しかしながら、高精度な認識結果をベースラインとした場合については検討していなかった．そこで，現時点で最高性能が得られている手法をベースラインとしてクロス適応の検討を行なった．その結果，このようなベースラインを使用した場合でも適応は有効であり，最終的に日本語話し言葉コーパスにおいて単語誤り率10.38%を得た．2)について雑音下音声認識において，音声区間検出(VAD)の精度が重要となる．そこでDNNを使用したVAD性能の向上について検討した．我々は従来DNN-HMMにおける話者適応について話者クラスモデルの有効性を示してきた．本研究ではそれを踏まえ，雑音クラスを設定しVADを行なった．評価は映画音声からの音声検出タスクを使用した．実験の結果EER(Equal Error Rate)で約5.4%と高い性能が得られた．以上よりクラスモデルの有効性を示した．3)について，まずは基礎的な検討として感情音声認識に関して，従来のGMM-HMMによる認識とDNN-HMMを用いた認識結果の比較検討を行なった．その結果前者で音素誤り率が23.32%に対し後者では15.95%と大幅に性能向上することを確認した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度は上記に示すように１）クロス適応の高精度化，２）雑音下における音声区間検出の検討，３）感情音声認識の検討，の３つの検討を行ない，いずれも評価実験の結果有効性が示されている．当初は話者クラスモデルを使用した話者適応を第一に着手することを想定していたが，事前検討により方針の変更を行ない上記３点の課題を優先させた．いずれも有効であり，おおむね順調に進捗していると考えられる．ただしDNN-HMMの話者適応に関しては，話者ベクトルを使った話者適応について開発および内部評価を進めているが，外部発表はまだとなっている．今後はこの方法の検討も進めて行きたい．
Strategy for Future Research Activity	上記研究実績に示した内容，すなわち，１）クロス適応の高精度化，２）雑音下における音声区間検出の検討，３）感情音声認識の検討，の3点のうち1)のクロス適応の高精度化については，おおむね検討を終えたので，細かい検討を除いては終了とする．一方２）や３）の課題については今後も改善の余地がある．２）については学習データがまだ２時間程度と少ない範囲となっている．学習量の割には高精度な結果が得られており，これは多様な環境を学習データが含んでいるためと想像されるが，今後は大規模なデータを使い，検討を進める予定である．その場合学習量が増えると最適なディープニューラルネットワークのパラメータ数も変わってくるので検討が必要となる．３）については認識性能が向上したとはいえ，まだ単語認識率で言えば低い範囲に留まっている．これについても，学習データの量や種類について様々な検討を行ない，性能向上を図る予定である．またDNN-HMMベースの音声認識の話者適応については，話者間相関を利用した話者ベクトルの利用の検討を行なっている．これがうまくいけば少量の適応データでの話者適応が可能となる．これを従来手法と比較しその性質を明らかにしたい．

Research Products
(9 results)

All 2017 2016 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 3 results) Presentation (4 results) (of which Int'l Joint Research: 1 results) Remarks (2 results)

[Journal Article] Large-scale multimodal movie dialogue corpus2016
- Author(s)
  Ryu Yasuhara, Masashi Inoue, Ikumi Suga and Tetsuo Kosaka
- Journal Title
  
  Proc. of the 18th ACM International Conference on Multimodal Interaction
  
  Volume: - Pages: 414-415
- DOI
  10.1145/2993148.2998523
- Peer Reviewed / Open Access
[Journal Article] Many-to-many voice conversion using hidden Markov model-based speech recognition and synthesis2016
- Author(s)
  Y. Aizawa, M. Kato and T. Kosaka
- Journal Title
  
  The Journal of the Acoustical Society of America
  
  Volume: 140 Pages: 2964
- DOI
  10.1121/1.4969167
- Peer Reviewed / Open Access
[Journal Article] Voice activity detection in movies using multi-class deep neural networks2016
- Author(s)
  I. Suga, R. Yasuhara, M. Inoue and T. Kosaka
- Journal Title
  
  The Journal of the Acoustical Society of America
  
  Volume: 140 Pages: 3116
- DOI
  10.1121/1.4969758
- Peer Reviewed / Open Access
[Presentation] DNNによる音声認識を用いた感情音声の声質変換の検討2017
- Author(s)
  笹田拓臣，相澤佳孝, 小坂哲夫
- Organizer
  情報処理学会東北支部研究会
- Place of Presentation
  山形大学
- Year and Date
  2017-03-07 – 2017-03-07
[Presentation] 高精度な初期モデルを用いた教師なしクロス適応の評価2016
- Author(s)
  冨田健斗, 高木瑛, 加藤正治, 小坂哲夫
- Organizer
  日本音響学会秋季講演論文集
- Place of Presentation
  富山大学
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] HMM認識・合成による感情音声の声質変換の性能向上2016
- Author(s)
  相澤佳孝, 中川由暁, 加藤正治, 小坂哲夫
- Organizer
  日本音響学会秋季講演論文集
- Place of Presentation
  富山大学
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] Voice Conversion of emotional speech using hidden Markov model-based speech recognition and synthesis2016
- Author(s)
  Tetsuo Kosaka, Yoshiaki Nakagawa and Masaharu Kato
- Organizer
  Proc. of 22nd International Congress on Acoustics
- Place of Presentation
  Buenos Aires, Argentina
- Year and Date
  2016-09-05 – 2016-09-09
- Int'l Joint Research
[Remarks] 小坂研究室
- URL
  http://speech-lab.yz.yamagata-u.ac.jp/index.html
[Remarks] Ｍｏｖｉｅ　Ｄｉａｌｏｇｕｅ　Ｃｏｒｐｕｓ
- URL
  http://i.yz.yamagata-u.ac.jp/moviedialcorpus/

2016 Fiscal Year Research-status Report

ディープラーニングに基づく音声認識の音響モデル適応の研究

Principal Investigator

小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Large-scale multimodal movie dialogue corpus2016

Author(s)

Journal Title

DOI

[Journal Article] Many-to-many voice conversion using hidden Markov model-based speech recognition and synthesis2016

Author(s)

Journal Title

DOI

[Journal Article] Voice activity detection in movies using multi-class deep neural networks2016

Author(s)

Journal Title

DOI

[Presentation] DNNによる音声認識を用いた感情音声の声質変換の検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 高精度な初期モデルを用いた教師なしクロス適応の評価2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] HMM認識・合成による感情音声の声質変換の性能向上2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Voice Conversion of emotional speech using hidden Markov model-based speech recognition and synthesis2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks] 小坂研究室

URL

[Remarks] Ｍｏｖｉｅ Ｄｉａｌｏｇｕｅ Ｃｏｒｐｕｓ

URL

小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)

[Remarks] Ｍｏｖｉｅ　Ｄｉａｌｏｇｕｅ　Ｃｏｒｐｕｓ