2011 Fiscal Year Annual Research Report
Project/Area Number |
22500144
|
Research Institution | Yamagata University |
Principal Investigator |
小坂 哲夫 山形大学, 大学院・理工学研究科, 准教授 (50359569)
|
Keywords | 話し言葉音声認識 / 音響モデル / 言語モデル / 教師無し話者適応 / 単語グラフ統合 / 話者インデキシング / 話者ベクトル / クロス適応 |
Research Abstract |
1. システム統合による性能向上 : LVCSRで性能向上を図るための一つの手段として,システム統合が挙げられる.複数の性質の異なる認識システムの認識結果を統合する手法であり,CNCやROVERなどの方式が提案されている.本研究では,従来あまり検討されていない,時間情報も利用できる単語グラフ統合を検討した.評価は残響環境下で行い,残響条件の異なる複数の音響モデルの結果を統合したところ,性能の向上が得られることが分った. 2. モデル適応の検討 : 教師なしモデル適応の検討を行った.この適応は音響モデルに対する適応と言語モデルに対する適応の2つが考えられるが,両者を併用する場合の効果的な方法について検討した.単純に2つの適応を繰り返す場合と比較し,クロス適応やクロスバリデーション適応を利用することにより性能向上が図れることが分った.さらに適応回数ごとに言語重みや挿入ペナルティを最適化すると,更に性能向上が得られることが分った. 3. 話者インデキシングの検討 : 話者ベクトルに基づく話者インデキシングの検討を行った.話者インデキシングを行うことにより,話者ごとに発話区間を分離することが可能となり,複数人が発声するタスクにおいて教師無し話者適応の利用が可能となる.本研究では,雑音が混入する場合の検討を行った.基本的には雑音を表現する軸を話者ベクトルに追加することにより雑音の分離を行うが,雑音を分離してからクラスタリングを行うよりも,クラスタリングを行った後に雑音を分離したほうが,より高い性能が得られることが分った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画では,23年度以降の検討事項として,モデル適応とシステム統合による性能向上を挙げている.モデル適応に関しては,検討の結果,当初計画していた信頼度による方法より有望な方法が見つかったため,その検討を行い効果を得ている.またシステム統合も様々な環境で検討を行い,本研究で取り上げている単語グラフ統合が有効であることを示すことができた.以上によりおおむね順調に進展していると判断した.
|
Strategy for Future Research Activity |
平成24年度は本研究プロジェクト最終年度であり,これまで行ってきた研究を評価し,まとめるフェースとなる.22~23年度で検討した項目としては,音響および言語モデルの高精度化,モデル適応,システム統合,話者インデキシングなどが挙げられる.以上の検討結果をもとに,更なる検討を行う.具体的には当初計画どおり,まずシステム統合のさらなる検討を進める.並行して中間評価を行い有望な手法について更なる検討を進める.最終的には複数のタスクにより,これまで検討してきた手法の最終評価を行う.
|