2004 年度実績報告書

文節境界を考慮した統計的言語モデルの高度化と音声認識への利用

研究課題

研究課題/領域番号	16650034
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
研究分担者	峯松信明東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)
キーワード	言語モデル / 文節境界 / Perplexity / 音声認識 / Tri-gram / 言語コーパス / アクセント句境界 / 形態素解析
研究概要	日本語の言語構造・発話構造を考慮した新しい統計的言語モデルを開発した上で、それを音声認識システムに組み込む有効な方策を開発することを目的として以下の成果を達成した。 1.毎日新聞記事コーパス3年分について、形態素解析を行って文節境界位置とその深さ(先行文節が後続文節を直接修飾するか否か)を求め、言語モデル学習用の言語コーパスとした。 2.提案したn-gram言語モデルを用いて音声認識を行う場合、n以上の先行単語列から文節境界を推定する。n-1の先行単語から推定するよりもより良い推定が得られることを、n=3のtri-gramについて確認した。 3.上記1の言語コーパスを用い、文節境界をまたぐ場合とまたがない場合のtri-gramモデルを学習した。文節境界を用いない従来のtri-gramモデルと比較し、8%程度以上のperplexityの減少が可能なことを示した。 4.連続音声認識用openソフトウエアJuliusの第2パスに作成したtri-gramモデルを実装し、JNAS音声コーパスの音声サンプルについて認識実験を行った。新聞記事1年分で学習した言語モデルを用いた場合、提案した言語モデルを用いることにより、従来と比較して8%程度の認識率の改善が得られた。新聞記事3年分で学習した言語モデルを用いた場合には、顕著な改善効果は得られなかった。この観点から、提案したモデルは特に十分な学習コーパスが得られないときに有効であることが推察される。 5.基本周波数パターンからアクセント句境界(フレーズ指令)を推定するコーパスベース手法を開発し、ATR503文音声を用いた実験の結果、欠落誤り10%、挿入誤り7%を得た。

研究成果
(3件)

すべて 2005 2004

すべて雑誌論文 (3件)

[雑誌論文] F_0モデルパラメータの自動抽出における統計的手法の利用2005
- 著者名/発表者名
  古山悠介
- 雑誌名
  
  日本音響学会講演論文集 1
  
  ページ: 171-172
[雑誌論文] Use of prosodic features for speech recognition2004
- 著者名/発表者名
  Keikichi Hiorse
- 雑誌名
  
  Proc.8^<th> International Conference on Spoken Language Processing 2
  
  ページ: 1445-1448
[雑誌論文] N-gram language modeling of Japanese using bunsetsu boundaries2004
- 著者名/発表者名
  Sungyup Chung
- 雑誌名
  
  Proc.8^<th> International Conference on Spoken Language Processing 2
  
  ページ: 993-996

2004 年度 実績報告書

文節境界を考慮した統計的言語モデルの高度化と音声認識への利用

研究代表者

広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

研究成果

[雑誌論文] F_0モデルパラメータの自動抽出における統計的手法の利用2005

著者名/発表者名

雑誌名

[雑誌論文] Use of prosodic features for speech recognition2004

著者名/発表者名

雑誌名

[雑誌論文] N-gram language modeling of Japanese using bunsetsu boundaries2004

著者名/発表者名

雑誌名

2004 年度実績報告書

広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)