研究課題/領域番号 |
14580403
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 筑波大学 |
研究代表者 |
山本 幹雄 筑波大学, 大学院・システム情報工学研究科, 助教授 (40210562)
|
研究期間 (年度) |
2002 – 2004
|
研究課題ステータス |
完了 (2004年度)
|
配分額 *注記 |
4,000千円 (直接経費: 4,000千円)
2004年度: 1,100千円 (直接経費: 1,100千円)
2003年度: 1,100千円 (直接経費: 1,100千円)
2002年度: 1,800千円 (直接経費: 1,800千円)
|
キーワード | 自然言語処理 / 機械翻訳 / スペルチェッカ / 相互情報量 / ベイズ統計 / テキストモデリング / 階層モデル / フレーズ対訳辞書 / 相互情報量最小化 / ディリクレ分布 / 文書モデル / 音声認識 / 統計的言語モデル / 統計的機械翻訳 / 文脈モデル / モデル化単位 |
研究概要 |
本研究では統計的言語モデルの基本パラメータである2種類の単位について検討・再考を行った。最初に検討した単位は文を構成する最小単位(または辞書項目単位)である。普通の統計的言語モデルでは最小単位として単語あるいは文字が使われることが多い。しかし、機械翻訳などのいくつかの応用システムでは、単語より長い単位がシステムの性能を上げることが知られている。本研究では特に単位認定が困難な場合が多い複合語に焦点を当て、統計的基準によって単位を自動獲得する手法を比較・検討した。特に相互情報量最小化基準による単位の自動分割手法を提案し、機械翻訳における対訳フレーズ辞書の自動構築法として有効であることを示した。 もう一つの単位は統計的言語モデルが最終的に確率を付与する文などの対象としての単位(対象単位)である。従来の統計的言語モデルの主な対象単位は「文」であったが、多くのアプリケーションでは文の集合であるテキスト(または文書)を出力とするため、本来テキスト全体で評価可能であるべきである。本研究では、混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布はPolya分布)テキスト全体を評価するモデルを提案した。新しいモデルは、従来のテキストモデルであるLDA(Latent Dirichlet Allocation)よりもパープレキシティと呼ばれる指標でよい性能を示した。文書全体を読み上げた音声を認識する大語彙連続音声認識システムの実験では、文書全体の情報を利用して効果的に誤認識部分を訂正できることを示した。
|