2004 Fiscal Year Annual Research Report
単語と文書の意味クラスをベースとするスクリプトの自動学習に関する研究
Project/Area Number |
15680005
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
鳥澤 健太郎 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)
|
Keywords | 自然言語処理 / スクリプト / 知識獲得 / 統計的自然言語処理 / プラン認識 / 生成語彙論 / シソーラス / テキストコーパス |
Research Abstract |
今年度は以下の2点に関して研究を行った。まず第一点は、対象物の用途をあらわす表現と、その準備となる行為を表す表現を大量のテキストコーパスから自動的に獲得する研究である。この結果、たとえば、「ビールを飲む」がビールの用途であり、「ビールを買う」がその準備であるといった知識がコーパスから自動的に獲得できることになった。これは動詞と名詞の間、ならびに動詞間の共起頻度などを考慮にいれたスコア付け、ならびにそれらの情報を用いて候補を絞り込んだ後の教師あり学習によって実現されている。この結果は、本プロジェクトでの最終目標であるスクリプト的知識の核となるものであり、より具体的にのべれば、このような表現をその時間的順序(つまりは、準備に関する行為は用途に関する行為に時間的に先立つということ)に沿って並べればスクリプト的知識が獲得できることになる。 また、第二点目の研究はHTML文書中のHTMLタグを利用しつつ様々な知識を獲得する手法であり、今年度は特に単語の上位下位関係や、単語クラス、あるいは、ある単語が示す対象の持つ重要な性質を示す語である「属性語」などを対象として知識の自動獲得手法について研究した。これらの語は、上で述べた対象の用途あるいは準備を表す表現、単語クラスにしたがって一般化したり、あるいは、それらの獲得精度を高める、あるいはスクリプトに拡張する際の手がかりとして利用されることになる。たとえば、仮に「ビール」の用途表現、あるいは準備表現として、それぞれ「飲む」「買う」が仮定できるとする。このとき、「ビール」と同じ「酒類」であるがコーパス中に現れる頻度がより少ない、たとえば「泡盛」に関して同様の知識がデータスパースネスの影響で獲得できないといった事態がありえるが、このような問題は本年度開発した上位下位関係の自動獲得手法で得られた上位下位関係、この場合であれば、「『泡盛』の上位語は『酒』」であるということ、ならびに「酒」の用途、準備表現がそれぞれ「飲む」「買う」であるということを用いて回避できる。
|
Research Products
(5 results)