研究課題
基盤研究(C)
本研究では統計的言語モデルの基本パラメータである2種類の単位について検討・再考を行った。最初に検討した単位は文を構成する最小単位(または辞書項目単位)である。普通の統計的言語モデルでは最小単位として単語あるいは文字が使われることが多い。しかし、機械翻訳などのいくつかの応用システムでは、単語より長い単位がシステムの性能を上げることが知られている。本研究では特に単位認定が困難な場合が多い複合語に焦点を当て、統計的基準によって単位を自動獲得する手法を比較・検討した。特に相互情報量最小化基準による単位の自動分割手法を提案し、機械翻訳における対訳フレーズ辞書の自動構築法として有効であることを示した。もう一つの単位は統計的言語モデルが最終的に確率を付与する文などの対象としての単位(対象単位)である。従来の統計的言語モデルの主な対象単位は「文」であったが、多くのアプリケーションでは文の集合であるテキスト(または文書)を出力とするため、本来テキスト全体で評価可能であるべきである。本研究では、混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布はPolya分布)テキスト全体を評価するモデルを提案した。新しいモデルは、従来のテキストモデルであるLDA(Latent Dirichlet Allocation)よりもパープレキシティと呼ばれる指標でよい性能を示した。文書全体を読み上げた音声を認識する大語彙連続音声認識システムの実験では、文書全体の情報を利用して効果的に誤認識部分を訂正できることを示した。
すべて 2005 2004 2003 その他
すべて 雑誌論文 (13件)
日本音響学会2005春季研究発表会講演論文集 I
ページ: 47-48
The 2005 Spring Meeting of the Acoustical Society of Japan
情報処理学会論文誌 Vol.45,No.9
ページ: 2168-2176
電子情報通信学会誌D-II Vol.87,No.7
ページ: 1409-1417
情報処理学会研究報告 200-SLP-53
ページ: 1-6
The IEICE Transactions on Information and systems Vol.J87-D-II, No.7
IPSJ Journal Vol.45, No.9
ページ: 2168-2175
IPSJ SIG Technical Report 2004-SLP-53
Proceedings of the Tenth Annual Meeting of the Association for Natural Language Processing
ページ: 697-700
情報処理学会研究報告 2003-SLP-48
ページ: 29-34
IPSJ SIG Technical Report 2003-SLP-48
電子情報通信学会論文誌D-II (印刷中)
The IEICE Transactions on Information and systems (to appear.)