Project/Area Number |
07780336
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Kyushu University |
Principal Investigator |
峯 恒憲 九州大学, 理学部, 講師 (30243851)
|
Project Period (FY) |
1995
|
Project Status |
Completed (Fiscal Year 1995)
|
Budget Amount *help |
¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 1995: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 類似度計算 / 格フレーム / 並列処理 / 自動分類 / 意味ネットワーク / 自然言語処理 / 用例ベース / 知識獲得 |
Research Abstract |
本年度は、次のことを行った。 1.新聞記事コーパスと大規模な概念辞書を利用した単語の類似度計算法の開発 2.上記手法を用いた格フレーム獲得システムの開発 3.既存の格フレームを利用した格フレーム要素獲得システムの開発 4.獲得した格フレームを評価するための並列構文解析システムの開発 昨年度から続けている単語の類似度計算法についての改良と、それを利用した格フレーム獲得法の提案、ならびに、そのシステム開発を行った。この手法は、新聞記事などの電子化された文書データから、単文の集合を抽出し、それから文の類似度を計算し、ある閾値を超えて類似していると判定された文を、同じ集合に入れて分類する。そして、その集合を代表する構造を、格フレームとするものである。 ある文1と文2の類似性を計算するために、それぞれの文中の対応する格要素間の類似度を概念辞書とコーパスから獲得したデータを利用して計算するが、この時、20万文以上の規模を持つ品詞や概念識別などが人手で付けられたEDRコーパスと、多数の人間が開発に関わって作成された40万概念以上の規模を持つEDR概念辞書を利用した。しかし、この規模でさえ、実際の解析において利用した文の解析に必要となる知識をカバーできず、それゆえ、解析精度が50〜60%程度にしかならないことが分かった。特に、慣用表現や抽象的な表現に対して解析が失敗する傾向があり、これらを知識に表すことの難しさからあらためて認識できた。 上記の手法で利用した単文は、格要素が名詞単体+助詞の構造を持つもので、かつ、動詞が文の最後に来るもの(つまり、動詞が支配する格要素への連体修飾などを含まない文)であり、また、同じ名詞を含まないものに限っていたため、実際の文章中から抽出できる実験に使用する単文は、基となる文章の量に比べて非常に少なくなった。そのため、現在、格要素が複合名詞や、文や句を含む形のものや、連体修飾形を含む形、受身や使役形を扱って単文を抽出するシステムを開発するとともに、獲得した単文から、意味ネットワークを自動構成する方法も同時に開発している。
|