単語と文書の意味クラスをベースとするスクリプトの自動学習に関する研究
Project/Area Number |
15680005
|
Research Category |
Grant-in-Aid for Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
鳥澤 健太郎 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)
|
Project Period (FY) |
2003 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥24,960,000 (Direct Cost: ¥19,200,000、Indirect Cost: ¥5,760,000)
Fiscal Year 2005: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Fiscal Year 2004: ¥7,410,000 (Direct Cost: ¥5,700,000、Indirect Cost: ¥1,710,000)
Fiscal Year 2003: ¥12,350,000 (Direct Cost: ¥9,500,000、Indirect Cost: ¥2,850,000)
|
Keywords | 自然言語処理 / スクリプト / 知識獲得 / 統計的自然言語処理 / プラン認識 / 生成語彙論 / シソーラス / テキストコーパス / 常識的知識 / 機械学習 |
Research Abstract |
今年度は、HTMLタグを用いた単語クラスの自動学習の研究、および、単なる名詞連続からの概念具体物関係の自動学習、ならびにイベント間の時間的前後関係の自動学習の研究を行った。特に概念具体物関係の自動獲得は間接的に本研究で重要な役割を果たす単語意味クラスの自動学習を行っていることになる。 まず、単語意味クラスの自動学習の研究に関してはHTML文書中で同一の箇条書きに現れる表現が意味的一貫性を持ちやすいという我々の観察に基づき、検索エンジンのヒットカウントと教師あり学習の一手法であるSVMを用いることで、高速に単語意味クラスを抽出する手法を研究した。 ついで、ある種の言語的なパターンは、概念具体物関係を表しやすく、またそこから概念具体物関係を比較的容易に抽出できることは知られていたが、「オンラインショッピングサイト楽天」のように単なる名詞連続で概念具体物関係を表すものから関係を抽出することは行われていなかった。我々は、概念名を表しやすい単語が存在し、これらを他の言語的パターンから抽出し、さらに検索エンジンを利用したフィルタリングをおこなうことで、高精度に概念具体物関係を抽出できることを示した。 また、イベント間の時間的前後関係に関しては、日本語のいわゆる並列動詞句ならびに、動詞と名詞の共起頻度をもとに、時間的な前後関係を持ち、同時に論理的な含意関係を持つ二つのイベント間の関係を大量のコーパスから自動的に学習する手法について研究した。
|
Report
(3 results)
Research Products
(15 results)