研究課題
基盤研究(C)
代表的な統計的言語モデルであるngramモデルに、処理中の文書や文脈の話題・トピックに関する情報を取り込むことによつて性能を向上させる手法を提案・評価・応用することを目的として研究を行った。研究成果は以下である。1.混合ディリクレ分布に関する階層ベイズモデルを利用した頑健なパラメータ推定手法を開発した。階層ベイズモデルは複雑な積分を近似的に数値計算する必要があるが、Reversing-EMと変分近似を用いた方法を開発し、様々なテキストデータを用い実験的に十分な性能改善ができることを示した。2.大語彙連続音声認識システムに混合ディリクレモデルを適用・評価した。適用方法として、従来のトライグラムモデルにunigram rescaling法でトピックモデルを組み込む方法、および文書尤度を用いて文書全体で認識結果の最適化を図る方法を考案した。従来からよく知られているUnigram Mixtureモデルやマルチトピックモデルの代表であるLDA(Latent Dirichlet Allocation)よりも混合ディリクレモデルが認識率でよい性能であることが分かった。3.機械翻訳システムとしては、フレーズベースの統計的機械翻訳システムを試作し、言語モデルにトピックモデルを組み込む方法を検討・評価した。組み込み方法としては、日英対訳記事を一つの文書と考えトピックモデルを学習した後、翻訳時に原言語側の文章のみからトピックを推定し、目的言語側に反映させる手法を用いた。実験の結果より、トピックモデルの有効性を確認できた。
すべて 2006 2005
すべて 雑誌論文 (9件) 図書 (1件)
情報処理学会論文誌 47・11
ページ: 3032-3040
The 4th meeting of ASA and ASJ 2006
ページ: 7
The Proc. of the 2006 Conf. on Empirical Methods in NLP 2006
ページ: 305-313
Transactions of IPSJ Vol.47,No.11
The 4th meeting of ASA and ASJ
The Proceedings of the 2006 conference on Empirical Methods in NLP
電子情報通信学会論文誌 J88-DII-9
ページ: 1771-1779
The IEICE Transactions on Information and Systems PT.2,Vol.J87-D-II,No.7
Spoken Language Systems (S.Nakagawa et al. ed.)(Ohmsha) Chapter 8
ページ: 317-331