研究課題/領域番号 |
25330183
|
研究種目 |
基盤研究(C)
|
研究機関 | 山形大学 |
研究代表者 |
小坂 哲夫 山形大学, 理工学研究科, 教授 (50359569)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声認識 / 話者 / クラスタリング / 音声コーパス |
研究概要 |
音声コーパスの拡大および計算機の性能向上による演算スピートの増加により,高精度な音声認識が可能となりつつある.しかし音声や音響信号には多様性があり,常に良好に認識できるわけではない.話者による性能劣化,雑音や残響などの影響など,多くの問題点が残されている.本研究ではクラスタリング技術を用い,音声・音響信号の多様性による音声認識の性能劣化の問題に取り組む.信号の特徴を利用して自動分類により性質の類似した信号をクラス別にまとめ,クラスごとモデルを構築し性能向上を目指すことを目的としている. 以上を実現する手段として,話者クラス音響モデルを用いた音声認識の検討を行った.日本語話し言葉コーパス(CSJ)に含まれる学習話者をクラス分けし,10~2667クラスと様々な話者クラスを自動分類により設定し,音響モデルを作成した.話者クラス音響モデルを用いるに当たって重要な点は,いかにして多数の話者クラスモデルから,入力音声に適した話者クラス音響モデルを選択するかである.本研究では確率モデルを使用しているため対数尤度を利用して選択を行った.この場合単純な方法では話者クラスの数の分だけ認識プロセスを実行する必要がある.しかし計算量の観点から現実的ではない.そこでマルチパス音声認識法を用い,第一パスで不特定話者音響モデルを使用して認識候補を絞りこみ,第二パスで多数の話者クラスモデルを使って尤度計算することにより計算量を削減する. しかしこの場合,第一パスと第二パスのモデルが一致していないため認識性能の劣化が起こる.そこで更に第二パスで選択した話者モデルを使用して,再認識することにより性能向上を図る.以上により計算量を削減しつつ認識性能の劣化を防ぐことができる.以上の提案法が認識実験により有効であることが確認された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
25年度は基本検討のフェーズであり,目標として効果的なクラスモデルの作成とクラスモデル選択手法の検討を挙げている.クラスモデルについては既に10クラスから,最大2667クラスの作成と,その実験を終了している.話者クラスモデルに関しては,数クラス程度の検討は従来から行われているが,100を超えるクラスモデルを学習し認識に用いる検討は,殆ど行われていない.実験の結果数百程度のモデルの使用が効果的であることが分かり,従来不明であった大規模なクラスモデルを使用することの有効性が示された.一方モデルの選択手法に関しては,尤度を用いた手法を使用しているが,今のところこれ以上の有効な方法は見つけられていない.しかし,最適にモデルを選択することができれば,大幅な認識性能向上が得られることが判明しており,今後は選択法の検討が重要であることが分かった.以上から,おおむね順調に進展していると判断した.
|
今後の研究の推進方策 |
26年度はクラスモデルの選択法およびシステム統合法の検討を目標として掲げていた.しかし,近年ディープニューラルネットを用いた音声認識手法の有効性が明らかとなっており,この手法を用いることにより大幅な認識性能向上が見込まれることも判明している.音声モデルとしては従来の隠れマルコフモデルとディープニューラルネットでは大きくその手法が異なるが,話者性を利用するという考えは両者共通に適用可能である.よって今後は研究方針を変更し,まずはディープニューラルネットを用いた話者クラスモデルについて検討を行い,隠れマルコフモデル同様に性能向上が可能かどうか検討を行う.また話者クラスモデルの選択についても尤度ではなくニューラルネットを用いた方法が可能か検討する.
|