研究課題/領域番号 |
17500105
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理・知能ロボティクス
|
研究機関 | 筑波大学 |
研究代表者 |
山本 幹雄 筑波大学, 大学院システム情報工学研究科, 助教授 (40210562)
|
研究期間 (年度) |
2005 – 2006
|
研究課題ステータス |
完了 (2006年度)
|
配分額 *注記 |
3,700千円 (直接経費: 3,700千円)
2006年度: 1,400千円 (直接経費: 1,400千円)
2005年度: 2,300千円 (直接経費: 2,300千円)
|
キーワード | 混合ディリクレ分布 / 統計的言語モデル / トピックモデル / ベイズ統計 / 音声認識 / 統計的機械翻訳 / 言語横断モデル / ベイズモデル |
研究概要 |
代表的な統計的言語モデルであるngramモデルに、処理中の文書や文脈の話題・トピックに関する情報を取り込むことによつて性能を向上させる手法を提案・評価・応用することを目的として研究を行った。研究成果は以下である。 1.混合ディリクレ分布に関する階層ベイズモデルを利用した頑健なパラメータ推定手法を開発した。階層ベイズモデルは複雑な積分を近似的に数値計算する必要があるが、Reversing-EMと変分近似を用いた方法を開発し、様々なテキストデータを用い実験的に十分な性能改善ができることを示した。 2.大語彙連続音声認識システムに混合ディリクレモデルを適用・評価した。適用方法として、従来のトライグラムモデルにunigram rescaling法でトピックモデルを組み込む方法、および文書尤度を用いて文書全体で認識結果の最適化を図る方法を考案した。従来からよく知られているUnigram Mixtureモデルやマルチトピックモデルの代表であるLDA(Latent Dirichlet Allocation)よりも混合ディリクレモデルが認識率でよい性能であることが分かった。 3.機械翻訳システムとしては、フレーズベースの統計的機械翻訳システムを試作し、言語モデルにトピックモデルを組み込む方法を検討・評価した。組み込み方法としては、日英対訳記事を一つの文書と考えトピックモデルを学習した後、翻訳時に原言語側の文章のみからトピックを推定し、目的言語側に反映させる手法を用いた。実験の結果より、トピックモデルの有効性を確認できた。
|