2014 Fiscal Year Research-status Report
大規模コーパスを利用した音声・音響信号の自動分類と音声認識への応用
Project/Area Number |
25330183
|
Research Institution | Yamagata University |
Principal Investigator |
小坂 哲夫 山形大学, 理工学研究科, 教授 (50359569)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声認識 / ディープニューラルネット / 話者適応 / クラスタリング / 音響モデル |
Outline of Annual Research Achievements |
音声コーパスの大規模化,特に多数話者の音声コーパスが利用可能になったことで,不特定話者の音声でも高精度な音声認識が可能となりつつある.しかし音声には多様性があり,常に良好に認識できるわけではない.本研究では音声・音響信号のクラスタリング技術を用い,多様性による音声認識の性能劣化の問題に取り組む.信号の特徴を利用して自動分類により性質の類似した信号をクラス別にまとめ,クラスごとに音響モデルを構築し性能向上を目指すことを目的としている. 以上を実現する手段として,話者クラス音響モデルを用いた音声認識の検討を行っている.日本語話し言葉コーパス(CSJ)に含まれる学習話者をクラス分けし,963個の話者クラスを自動分類により設定し,音響モデルを作成した.音響モデルとしては従来から広く隠れマルコフモデル(HMM)が利用されている.これまでHMMの状態出力確率の表現としては混合ガウス分布(GMM)が使われてきた.しかし近年ディープニューラルネット(DNN)を用いた音声認識が高い性能を示し注目されている.DNNによって状態出力確率を求めるHMMをDNN-HMMと呼ぶ.以上を考慮し従来のGMM-HMMではなく新たにDNN-HMMで話者クラス音響モデルを作成し認識実験を行った.CSJのテストセットを用いた評価では,GMM-HMMと比較しベースラインの性能が大幅に向上することが分かった.さらにDNN-HMMに基づく話者クラスモデルを使用することにより,更なる性能向上が得られることが示された. さらに本研究では,最尤推定による重みづけをおこない、複数のモデルの出力の統合を行った.その結果1つの話者クラスモデルを利用する場合と比較し,より高い性能が得られることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
26年度は中間評価および再検討のフェーズである.またシステム統合についての検討も予定していた.研究計画を立案した時期と大きく状況が異なるのは,ディープニューラルネットに基づく音声認識の飛躍的な性能向上が示され,音響モデルとして従来のGMM-HMMではなくDNN-HMMを用いた認識システムが一般化しつつあるという点である.本研究ではこの状況を踏まえ,話者クラスモデルについても従来のGMM-HMMではなくDNN-HMMベースで検討を進めるという変更を行った.この結果まずベースラインをDNN-HMMに変更することで大幅な性能向上が得られ,さらに話者クラスモデルを用いることで更なる性能向上が得られることが分かった.以上より当初想定していた認識性能を既に超えており,またDNN-HMMベースでも話者クラスモデルの有効性が示されたことで,計画としては順調であると判断した.
|
Strategy for Future Research Activity |
27年度はまとめの年であると同時に雑音環境について検討を行うと,当初目的で掲げていた.しかし本計画を推進する過程においてディープニューラルネットの検討が重要であることが分かっている.このため雑音環境についての検討は最小限に留め,ディープニューラルネットを使った話者クラスの検討をさらにすすめる.これまでの検討では話者クラスごとにニューラルネットを設計し,複数併用する場合は尤度による重みづけをするという方法を検討してきた.一方話者クラスの設計からすべてニューラルネットで行うという方法も考えられる.よって本年度はニューラルネット学習の段階で話者クラスの情報を入力し,ニューラルネットの構築を行う方法を検討する.雑音環境については雑音の分類をニューラルネットで行い,それを音声検出に応用できるか検討する.
|