研究概要 |
1.音響モデルの精密化の検討:音響モデルを精密化する手法として音素環境依存モデルが用いられている.一般的にtriphoneが用いられるが,前後2音素の違いを考慮するquinphoneにより更なる性能向上が得られる.しかしquinphoneを用いる場合,発話速度の違いなど発話それぞれについて最適な状態数が異なる.これに対し単語グラフ統合を用いることにより状態数の自動最適化を図る手法を提案した.また話者性の問題に対し,話者クラス音響モデルを利用することにより認識性能が向上することを示した 2.言語モデルの高精度化:言語モデルの高精度化を図る場合,学習テキストの量を増加することが有効であり,そのための一手法としてWeb上のテキストの利用が考えられる.どのようなWebテキストを選択することが話し言葉認識に有効かの検討を行った.また言語モデルをタスクに適応することにより精度が向上するが,その場合クロス適応の手法を用いると性能向上が得られることが分かった 3.話者インデキシングの検討:話者ベクトルに基づく話者インデキシングの検討を行った.話者ベクトルを生成する場合の音響モデルとして,音素を考慮したモデル化が有効であることを示した.また雑音が混入する場合,話者ベクトルの軸として雑音を表現する軸を追加することが有効であることが分かった.以上1,2は音声認識自体の性能向上に寄与する.また会議音声など複数話者が発声している状況において話者適応を行う場合,話者の分類が必要である.3はこのための必須技術であり,インデキシングの性能向上が話者適応の性能向上に繋がると考えられる.
|