1995 Fiscal Year Annual Research Report
既存の電子化辞書と新聞記事コーパスを用いた並列知識獲得法の研究
Project/Area Number |
07780336
|
Research Institution | Kyushu University |
Principal Investigator |
峯 恒憲 九州大学, 理学部, 講師 (30243851)
|
Keywords | 類似度計算 / 格フレーム / 並列処理 / 自動分類 / 意味ネットワーク / 自然言語処理 / 用例ベース / 知識獲得 |
Research Abstract |
本年度は、次のことを行った。 1.新聞記事コーパスと大規模な概念辞書を利用した単語の類似度計算法の開発 2.上記手法を用いた格フレーム獲得システムの開発 3.既存の格フレームを利用した格フレーム要素獲得システムの開発 4.獲得した格フレームを評価するための並列構文解析システムの開発 昨年度から続けている単語の類似度計算法についての改良と、それを利用した格フレーム獲得法の提案、ならびに、そのシステム開発を行った。この手法は、新聞記事などの電子化された文書データから、単文の集合を抽出し、それから文の類似度を計算し、ある閾値を超えて類似していると判定された文を、同じ集合に入れて分類する。そして、その集合を代表する構造を、格フレームとするものである。 ある文1と文2の類似性を計算するために、それぞれの文中の対応する格要素間の類似度を概念辞書とコーパスから獲得したデータを利用して計算するが、この時、20万文以上の規模を持つ品詞や概念識別などが人手で付けられたEDRコーパスと、多数の人間が開発に関わって作成された40万概念以上の規模を持つEDR概念辞書を利用した。しかし、この規模でさえ、実際の解析において利用した文の解析に必要となる知識をカバーできず、それゆえ、解析精度が50〜60%程度にしかならないことが分かった。特に、慣用表現や抽象的な表現に対して解析が失敗する傾向があり、これらを知識に表すことの難しさからあらためて認識できた。 上記の手法で利用した単文は、格要素が名詞単体+助詞の構造を持つもので、かつ、動詞が文の最後に来るもの(つまり、動詞が支配する格要素への連体修飾などを含まない文)であり、また、同じ名詞を含まないものに限っていたため、実際の文章中から抽出できる実験に使用する単文は、基となる文章の量に比べて非常に少なくなった。そのため、現在、格要素が複合名詞や、文や句を含む形のものや、連体修飾形を含む形、受身や使役形を扱って単文を抽出するシステムを開発するとともに、獲得した単文から、意味ネットワークを自動構成する方法も同時に開発している。
|
-
[Publications] 実成他: "動詞の格フレーム要素の自動獲得法" 情報処理学会九州支部研究集会論文集. 1-10 (1995)
-
[Publications] T.Mine: "A Case Frame Acquisition Method with Electronic Dictionaries" RWC Technical Report(TR-95001). 1. 39-40 (1995)
-
[Publications] 峯他: "動詞語義の分類法" EDR電子化辞書利用シンポジウム論文集. 1. 89-96 (1995)
-
[Publications] 中山他: "EDRコーパスを利用した動詞の語義分類" 電子情報通信学会「言語理解とコミュニケーション研究会」研究報告. 95-321. 23-30 (1995)