研究課題/領域番号 |
15500098
|
研究機関 | 山形大学 |
研究代表者 |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
研究分担者 |
小坂 哲夫 山形大学, 工学部, 助教授 (50359569)
加藤 正治 山形大学, 工学部, 助手 (10250953)
|
キーワード | 日本語話し言葉コーパス / 音声認識 / 音響モデル / 言語モデル / 発音変形依存モデル / 教師なし適応 / MLLR / 品詞N-gram |
研究概要 |
今年度は、2004年6月に公開された日本語話し言葉コーパス(公開版CSJ)を用いて、講演音声認識の性能評価を行なった。公開版CSJ(2702講演、695万語)には、昨年度まで利用していたモニター版CSJの約8倍のデータ量があるため、音響モデルや言語モテルの改善を進めて、初期の目標(平成17年度に単語誤り率10%程度を達成する)を目指した。 (1)学習データ量の検討 公開版CSJの1/8、1/4、1/2、allからなる学習セットを用いて(1/8はモニター版CSJのデータ量に相当する)、音響モデルおよび言語モデルをそれぞれ4種類作成し、音響モデルと言語モデルの種々の組合せについて、評価セット1(10講演)で性能評価した。その結果、次のことがわかった。 ・言語モデルは、学習データ増加によるパープレキシティ(PP)、単語誤り率(WER)の改善効果が大きい ・音響モデルも同様に、学習データ増加による改善効果がみられるが、言語モデルほど顕著ではない ・公開版CSJ 1/8からallへ学習データ増加により、PPは121.0から90.4、WERは26.04%から20.00%に減少する (2)語彙セットの検討 公開版CSJには学会講演と模擬講演がある。次の4タイプの語彙セットを検討する。 (タイプ1)学会講演のみからn回以上出現の単語(n=1〜4) (タイプ2)学会講演と模擬講演の全体からn回以上出現の単語(n=2〜5) (タイプ3)学会講演から2回以上出現の単語と模擬講演からn回以上出現の単語(n=1〜4) (タイプ4)学会講演から出現上位2万語と模擬講演から2回以上出現の単語 その結果、タイプ3の語彙セットが最も良いことがわかり、WER19.86%を得た。
|