2001 Fiscal Year Annual Research Report
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
Project/Area Number |
13780274
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Research Institution | Shinshu University |
Principal Investigator |
山本 一公 信州大学, 工学部, 助手 (40324230)
|
Keywords | 音声認識 / 隠れマルコフモデル / セグメント統計量 / 動的特徴 / 可変長セグメント / 音素環境依存モデル / 音節モデル / 混合数 |
Research Abstract |
本年度は以下の項目について研究を行った. 1.音素環境依存音節モデルの基本的な検討 最初に,先行音素依存音節モデルの検討を行った.日本語の場合,先行音素は主として母音となるため,全ての先行音素別モデルを作成してもモデル数は極端に増加しない.そこで,母音(5種類),發音,促音・無音の7カテゴリーを先行音素とした.音素環境依存独立の音節モデルと比べて,認識精度の向上が見られた.次に,後続音素依存音節モデルの検討を行った.後続音素依存モデルの場合,全ての音素について可能性を考慮する必要があるため,モデル数が爆発的に増加する.そこで,音素を摩擦音群,破裂・破擦音群,半母音群,鼻音群,母音群(3種類),無音群の8カテゴリーに分割し,後続音素依存音節モデルを作成した.音素環境依存独立の音節モデルと比べて認識性能は改善されるものの,先行音素依存音節モデルの方が高い認識率を示した.また,先行/後続音素環境を考慮したモデルを作成するよりも,音素環境独立モデルで単純にガウス分布の混合数を増やす方が認識精度が向上することが分かった. 2.可変長セグメント単位入力HMMと計算量削減 セグメントを2フレームから構成することとし,隣接する2フレーム(セグメント長2フレーム)の場合,セグメント長4フレームの両端の2フレームの場合,セグメント長8フレームの両端の2フレームの場合と,セグメント長の異なるセグメント統計量を同時に使用した場合について検討を行い,認識精度に効果があることを確かめた.しかし,この方法は全てのセグメント長について計算を行うので,計算量の問題が無視できない.そこで,計算量を削減する方法として,特徴量の性質そのものからセグメント長を自動的に決定するデータドリブンな手法について検討中である.
|