研究課題
今年度は以下の2点に関して研究を行った。まず第一点は、対象物の用途をあらわす表現と、その準備となる行為を表す表現を大量のテキストコーパスから自動的に獲得する研究である。この結果、たとえば、「ビールを飲む」がビールの用途であり、「ビールを買う」がその準備であるといった知識がコーパスから自動的に獲得できることになった。これは動詞と名詞の間、ならびに動詞間の共起頻度などを考慮にいれたスコア付け、ならびにそれらの情報を用いて候補を絞り込んだ後の教師あり学習によって実現されている。この結果は、本プロジェクトでの最終目標であるスクリプト的知識の核となるものであり、より具体的にのべれば、このような表現をその時間的順序(つまりは、準備に関する行為は用途に関する行為に時間的に先立つということ)に沿って並べればスクリプト的知識が獲得できることになる。また、第二点目の研究はHTML文書中のHTMLタグを利用しつつ様々な知識を獲得する手法であり、今年度は特に単語の上位下位関係や、単語クラス、あるいは、ある単語が示す対象の持つ重要な性質を示す語である「属性語」などを対象として知識の自動獲得手法について研究した。これらの語は、上で述べた対象の用途あるいは準備を表す表現、単語クラスにしたがって一般化したり、あるいは、それらの獲得精度を高める、あるいはスクリプトに拡張する際の手がかりとして利用されることになる。たとえば、仮に「ビール」の用途表現、あるいは準備表現として、それぞれ「飲む」「買う」が仮定できるとする。このとき、「ビール」と同じ「酒類」であるがコーパス中に現れる頻度がより少ない、たとえば「泡盛」に関して同様の知識がデータスパースネスの影響で獲得できないといった事態がありえるが、このような問題は本年度開発した上位下位関係の自動獲得手法で得られた上位下位関係、この場合であれば、「『泡盛』の上位語は『酒』」であるということ、ならびに「酒」の用途、準備表現がそれぞれ「飲む」「買う」であるということを用いて回避できる。
すべて 2005 2004
すべて 雑誌論文 (5件)
自然言語処理 12・1
ページ: 125-150
In Proceedings of The Nineteenth International Joint Conference on Artificial Intelligence (IJCAI-05) (To appear)
人工知能学会論文誌 19・6
ページ: 548-560
In Proceedings of The 20^<th> International Conference on Computational Linguistics (COLING04)
ページ: 938-944
In Proceedings of International Workshop on Natural Language Processing and its Applications (NLPBA/BioNLP 2004)