2004 Fiscal Year Annual Research Report
文節境界を考慮した統計的言語モデルの高度化と音声認識への利用
Project/Area Number |
16650034
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)
|
Keywords | 言語モデル / 文節境界 / Perplexity / 音声認識 / Tri-gram / 言語コーパス / アクセント句境界 / 形態素解析 |
Research Abstract |
日本語の言語構造・発話構造を考慮した新しい統計的言語モデルを開発した上で、それを音声認識システムに組み込む有効な方策を開発することを目的として以下の成果を達成した。 1.毎日新聞記事コーパス3年分について、形態素解析を行って文節境界位置とその深さ(先行文節が後続文節を直接修飾するか否か)を求め、言語モデル学習用の言語コーパスとした。 2.提案したn-gram言語モデルを用いて音声認識を行う場合、n以上の先行単語列から文節境界を推定する。n-1の先行単語から推定するよりもより良い推定が得られることを、n=3のtri-gramについて確認した。 3.上記1の言語コーパスを用い、文節境界をまたぐ場合とまたがない場合のtri-gramモデルを学習した。文節境界を用いない従来のtri-gramモデルと比較し、8%程度以上のperplexityの減少が可能なことを示した。 4.連続音声認識用openソフトウエアJuliusの第2パスに作成したtri-gramモデルを実装し、JNAS音声コーパスの音声サンプルについて認識実験を行った。新聞記事1年分で学習した言語モデルを用いた場合、提案した言語モデルを用いることにより、従来と比較して8%程度の認識率の改善が得られた。新聞記事3年分で学習した言語モデルを用いた場合には、顕著な改善効果は得られなかった。この観点から、提案したモデルは特に十分な学習コーパスが得られないときに有効であることが推察される。 5.基本周波数パターンからアクセント句境界(フレーズ指令)を推定するコーパスベース手法を開発し、ATR503文音声を用いた実験の結果、欠落誤り10%、挿入誤り7%を得た。
|