2005 Fiscal Year Annual Research Report
Project/Area Number |
15500098
|
Research Institution | Yamagata University |
Principal Investigator |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
Co-Investigator(Kenkyū-buntansha) |
小坂 哲夫 山形大学, 工学部, 助教授 (50359569)
加藤 正治 山形大学, 工学部, 助手 (10250953)
|
Keywords | 日本語話し言葉コーパス / 音声認識 / 音響モデル / 言語モデル / 教師なし適応 / 混合連続分布HMM / 離散混合分布HMM |
Research Abstract |
2004年6月に公開された日本語話し言葉コーパス(CSJ)を用いて、講演音声認識の検討を行った。 1 教師なし適応による性能改善 まず音響モデルを2回適応し、次いで言語モデルを2回適応した。これを2回繰り返して音響モデル,言語モデルそれぞれを延べ4回ずつ、計8回の適応を行った。その結果次のことがわかり、当初目標達成の可能性を確認した。 (1)単語誤り率(WER)は適応前の19.96%から適応後は15.41%に減少し、繰り返し適応は効果的である。 (2)単語グラフはグラフ誤り率(GER)7%以下と高性能である。デコーダ第2パスのリスコアリングをうまく行えばWERを10%程度まで減少できる可能性がある。 (3)教師あり適応の場合、適応後のWERは8.12%まで減少する。認識結果全体(音素誤り率は適応前10.05%、適応後7.63%)の中から、音素誤り率の比較的小さい認識結果のみをうまく選択して適応データの精度が上がれば、WERを10%程度まで減少できる可能性がある。 2 離散混合分布HMMの性能評価 正規分布を仮定する混合連続分布HMMに対して離散混合分布HMMは、任意の分布形状が表現可能なため広範な発声環境に頑健な認識性能が期待できる。CSJを用いた講演音声認識により、次のことがわかった。 (1)離散混合分布HMMによるWERは20.30%である。これは通常の混合連続分布HMMと同等の結果である。 (2)離散混合分布HMMは雑音環境下の音声認識に頑健であることはすでに確認されているが、CSJのように発声環境の比較的良い条件下でも有効である。
|
Research Products
(14 results)