2014 Fiscal Year Research-status Report

大規模コーパスを利用した音声・音響信号の自動分類と音声認識への応用

Research Project

Project/Area Number	25330183
Research Institution	Yamagata University
Principal Investigator	小坂哲夫山形大学, 理工学研究科, 教授 (50359569)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声認識 / ディープニューラルネット / 話者適応 / クラスタリング / 音響モデル
Outline of Annual Research Achievements	音声コーパスの大規模化，特に多数話者の音声コーパスが利用可能になったことで，不特定話者の音声でも高精度な音声認識が可能となりつつある．しかし音声には多様性があり，常に良好に認識できるわけではない．本研究では音声・音響信号のクラスタリング技術を用い，多様性による音声認識の性能劣化の問題に取り組む．信号の特徴を利用して自動分類により性質の類似した信号をクラス別にまとめ，クラスごとに音響モデルを構築し性能向上を目指すことを目的としている．以上を実現する手段として，話者クラス音響モデルを用いた音声認識の検討を行っている．日本語話し言葉コーパス(CSJ)に含まれる学習話者をクラス分けし，963個の話者クラスを自動分類により設定し，音響モデルを作成した．音響モデルとしては従来から広く隠れマルコフモデル(HMM)が利用されている．これまでHMMの状態出力確率の表現としては混合ガウス分布(GMM)が使われてきた．しかし近年ディープニューラルネット(DNN)を用いた音声認識が高い性能を示し注目されている．DNNによって状態出力確率を求めるHMMをDNN-HMMと呼ぶ．以上を考慮し従来のGMM-HMMではなく新たにDNN-HMMで話者クラス音響モデルを作成し認識実験を行った．CSJのテストセットを用いた評価では，GMM-HMMと比較しベースラインの性能が大幅に向上することが分かった．さらにDNN-HMMに基づく話者クラスモデルを使用することにより，更なる性能向上が得られることが示された．さらに本研究では，最尤推定による重みづけをおこない、複数のモデルの出力の統合を行った．その結果1つの話者クラスモデルを利用する場合と比較し，より高い性能が得られることが分かった．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 26年度は中間評価および再検討のフェーズである．またシステム統合についての検討も予定していた．研究計画を立案した時期と大きく状況が異なるのは，ディープニューラルネットに基づく音声認識の飛躍的な性能向上が示され，音響モデルとして従来のGMM-HMMではなくDNN-HMMを用いた認識システムが一般化しつつあるという点である．本研究ではこの状況を踏まえ，話者クラスモデルについても従来のGMM-HMMではなくDNN-HMMベースで検討を進めるという変更を行った．この結果まずベースラインをDNN-HMMに変更することで大幅な性能向上が得られ，さらに話者クラスモデルを用いることで更なる性能向上が得られることが分かった．以上より当初想定していた認識性能を既に超えており，またDNN-HMMベースでも話者クラスモデルの有効性が示されたことで，計画としては順調であると判断した．
Strategy for Future Research Activity	27年度はまとめの年であると同時に雑音環境について検討を行うと，当初目的で掲げていた．しかし本計画を推進する過程においてディープニューラルネットの検討が重要であることが分かっている．このため雑音環境についての検討は最小限に留め，ディープニューラルネットを使った話者クラスの検討をさらにすすめる．これまでの検討では話者クラスごとにニューラルネットを設計し，複数併用する場合は尤度による重みづけをするという方法を検討してきた．一方話者クラスの設計からすべてニューラルネットで行うという方法も考えられる．よって本年度はニューラルネット学習の段階で話者クラスの情報を入力し，ニューラルネットの構築を行う方法を検討する．雑音環境については雑音の分類をニューラルネットで行い，それを音声検出に応用できるか検討する．

Research Products
(8 results)

All 2015 2014

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results, Acknowledgement Compliant: 1 results) Presentation (6 results) Book (1 results)

[Journal Article] Unsupervised cross-adaptation using language model and deep learning based acoustic model adaptations2014
- Author(s)
  Akira Takagi, Kazuki Konno, Masaharu Kato and Tetsuo Kosaka
- Journal Title
  
  Proc. of APSIPA ASC 2014
  
  Volume: WA-P-16 Pages: 1-4
- DOI
  10.1109/APSIPA.2014.7041581
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Presentation] DNN-HMMを用いた教師なしクロス適応の性能改善の検討2015
- Author(s)
  高木瑛, 加藤正治, 小坂哲夫
- Organizer
  日本音響学会春季講演論文集
- Place of Presentation
  中央大学後楽園キャンパス
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 最尤推定による話者クラスDNNの出力統合を用いた音声認識2015
- Author(s)
  今野和樹，加藤正治，小坂哲夫
- Organizer
  日本音響学会春季講演論文集
- Place of Presentation
  中央大学後楽園キャンパス
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] DNN-HMMを用いた音声認識におけるパラメータ数の検討2015
- Author(s)
  小野瑞穂, 加藤正治, 小坂哲夫
- Organizer
  情報処理学会東北支部研究会
- Place of Presentation
  山形大学工学部
- Year and Date
  2015-03-04 – 2015-03-04
[Presentation] Deep Learningによる教師つき適応の結果を用いた日本語講演音声認識の誤り解析2014
- Author(s)
  小野瑞穂，小関翔太，加藤正治，小坂哲夫
- Organizer
  日本音響学会秋季講演論文集
- Place of Presentation
  北海学園大学豊平キャンパス
- Year and Date
  2014-09-03 – 2014-09-05
[Presentation] 音声認識におけるDNNを用いた話者クラスモデルの検討2014
- Author(s)
  今野和樹，高木　瑛，加藤正治，小坂哲夫
- Organizer
  電気関係学会東北支部連合大会
- Place of Presentation
  山形大学工学部
- Year and Date
  2014-08-21 – 2014-08-22
[Presentation] DNN-HMMを用いた音響モデルおよび言語モデルのクロス適応2014
- Author(s)
  高木瑛, 今野和樹, 加藤正治, 小坂哲夫
- Organizer
  情報処理学会声言語情報処理研究報告
- Place of Presentation
  東京工業大学　大岡山キャンパス
- Year and Date
  2014-05-22 – 2014-05-23
[Book] 進化するヒトと機械の音声コミュニケーション第1編2章2015
- Author(s)
  小坂哲夫
- Total Pages
  １０
- Publisher
  (株)ニッケイ印刷

2014 Fiscal Year Research-status Report

大規模コーパスを利用した音声・音響信号の自動分類と音声認識への応用

Principal Investigator

小坂 哲夫 山形大学, 理工学研究科, 教授 (50359569)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Unsupervised cross-adaptation using language model and deep learning based acoustic model adaptations2014

Author(s)

Journal Title

DOI

[Presentation] DNN-HMMを用いた教師なしクロス適応の性能改善の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 最尤推定による話者クラスDNNの出力統合を用いた音声認識2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] DNN-HMMを用いた音声認識におけるパラメータ数の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Deep Learningによる教師つき適応の結果を用いた日本語講演音声認識の誤り解析2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声認識におけるDNNを用いた話者クラスモデルの検討2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] DNN-HMMを用いた音響モデルおよび言語モデルのクロス適応2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Book] 進化するヒトと機械の音声コミュニケーション第1編2章2015

Author(s)

Total Pages

Publisher

小坂哲夫山形大学, 理工学研究科, 教授 (50359569)