2006 年度研究成果報告書概要

混合ディリクレ分布を用いたトピックモデルによる統計的言語モデルの高度化とその応用

研究課題

研究課題/領域番号	17500105
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知覚情報処理・知能ロボティクス
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, 大学院システム情報工学研究科, 助教授 (40210562)
研究期間 (年度)	2005 – 2006
キーワード	混合ディリクレ分布 / 統計的言語モデル / トピックモデル / ベイズ統計 / 音声認識 / 統計的機械翻訳
研究概要	代表的な統計的言語モデルであるngramモデルに、処理中の文書や文脈の話題・トピックに関する情報を取り込むことによつて性能を向上させる手法を提案・評価・応用することを目的として研究を行った。研究成果は以下である。 1.混合ディリクレ分布に関する階層ベイズモデルを利用した頑健なパラメータ推定手法を開発した。階層ベイズモデルは複雑な積分を近似的に数値計算する必要があるが、Reversing-EMと変分近似を用いた方法を開発し、様々なテキストデータを用い実験的に十分な性能改善ができることを示した。 2.大語彙連続音声認識システムに混合ディリクレモデルを適用・評価した。適用方法として、従来のトライグラムモデルにunigram rescaling法でトピックモデルを組み込む方法、および文書尤度を用いて文書全体で認識結果の最適化を図る方法を考案した。従来からよく知られているUnigram Mixtureモデルやマルチトピックモデルの代表であるLDA(Latent Dirichlet Allocation)よりも混合ディリクレモデルが認識率でよい性能であることが分かった。 3.機械翻訳システムとしては、フレーズベースの統計的機械翻訳システムを試作し、言語モデルにトピックモデルを組み込む方法を検討・評価した。組み込み方法としては、日英対訳記事を一つの文書と考えトピックモデルを学習した後、翻訳時に原言語側の文章のみからトピックを推定し、目的言語側に反映させる手法を用いた。実験の結果より、トピックモデルの有効性を確認できた。

研究成果
(10件)

すべて 2006 2005

すべて雑誌論文 (9件) 図書 (1件)

[雑誌論文] 英日統計的機械翻訳における語順優先探索デコーダ2006
- 著者名/発表者名
  岩越隼人
- 雑誌名
  
  情報処理学会論文誌 47・11
  
  ページ: 3032-3040
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Document level optimization in speech recognition2006
- 著者名/発表者名
  Rie NAKAZATO
- 雑誌名
  
  The 4th meeting of ASA and ASJ 2006
  
  ページ: 7
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Relevance feedback models for recommendation2006
- 著者名/発表者名
  Masao UTIYAMA
- 雑誌名
  
  The Proc. of the 2006 Conf. on Empirical Methods in NLP 2006
  
  ページ: 305-313
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Reordering priority decoder for statistical machine translation2006
- 著者名/発表者名
  Hayato Iwakoshi
- 雑誌名
  
  Transactions of IPSJ Vol.47,No.11
  
  ページ: 3032-3040
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Document level optimization in speech recognition2006
- 著者名/発表者名
  Rie Nakazato
- 雑誌名
  
  The 4th meeting of ASA and ASJ
  
  ページ: 7
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Relevance feedback models for recommendation2006
- 著者名/発表者名
  Masao Utiyama
- 雑誌名
  
  The Proceedings of the 2006 conference on Empirical Methods in NLP
  
  ページ: 305-313
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] 混合ディリクレ分布を用いたトピックに基づく言語モデル2005
- 著者名/発表者名
  貞光九月
- 雑誌名
  
  電子情報通信学会論文誌 J88-DII-9
  
  ページ: 1771-1779
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Topic-based language models using Dirichlet Mixtures2005
- 著者名/発表者名
  Kugatsu Sadamitsu
- 雑誌名
  
  The IEICE Transactions on Information and Systems PT.2,Vol.J87-D-II,No.7
  
  ページ: 1771-1779
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Spoken language resources2005
- 著者名/発表者名
  Shuichi Itahashi
- 雑誌名
  
  Spoken Language Systems (S.Nakagawa et al. ed.)(Ohmsha) Chapter 8
  
  ページ: 317-331
- 説明
  「研究成果報告書概要(欧文)」より
[図書] Spoken Language Systems (8章分担「Spoken Language Resources」)2005
- 著者名/発表者名
  S.Nakagawa et al.(Eds)
- 総ページ数
  317-331
- 出版者
  Ohmsha
- 説明
  「研究成果報告書概要(和文)」より

2006 年度 研究成果報告書概要

混合ディリクレ分布を用いたトピックモデルによる統計的言語モデルの高度化とその応用

研究代表者

山本 幹雄 筑波大学, 大学院システム情報工学研究科, 助教授 (40210562)

研究成果

[雑誌論文] 英日統計的機械翻訳における語順優先探索デコーダ2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Document level optimization in speech recognition2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Relevance feedback models for recommendation2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Reordering priority decoder for statistical machine translation2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Document level optimization in speech recognition2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Relevance feedback models for recommendation2006

著者名/発表者名

雑誌名

説明

[雑誌論文] 混合ディリクレ分布を用いたトピックに基づく言語モデル2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Topic-based language models using Dirichlet Mixtures2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Spoken language resources2005

著者名/発表者名

雑誌名

説明

[図書] Spoken Language Systems (8章分担「Spoken Language Resources」)2005

著者名/発表者名

総ページ数

出版者

説明

2006 年度研究成果報告書概要

山本幹雄筑波大学, 大学院システム情報工学研究科, 助教授 (40210562)