• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

既存の電子化辞書と新聞記事コーパスを用いた並列知識獲得法の研究

研究課題

研究課題/領域番号 07780336
研究種目

奨励研究(A)

配分区分補助金
研究分野 知能情報学
研究機関九州大学

研究代表者

峯 恒憲  九州大学, 理学部, 講師 (30243851)

研究期間 (年度) 1995
研究課題ステータス 完了 (1995年度)
配分額 *注記
900千円 (直接経費: 900千円)
1995年度: 900千円 (直接経費: 900千円)
キーワード類似度計算 / 格フレーム / 並列処理 / 自動分類 / 意味ネットワーク / 自然言語処理 / 用例ベース / 知識獲得
研究概要

本年度は、次のことを行った。
1.新聞記事コーパスと大規模な概念辞書を利用した単語の類似度計算法の開発
2.上記手法を用いた格フレーム獲得システムの開発
3.既存の格フレームを利用した格フレーム要素獲得システムの開発
4.獲得した格フレームを評価するための並列構文解析システムの開発
昨年度から続けている単語の類似度計算法についての改良と、それを利用した格フレーム獲得法の提案、ならびに、そのシステム開発を行った。この手法は、新聞記事などの電子化された文書データから、単文の集合を抽出し、それから文の類似度を計算し、ある閾値を超えて類似していると判定された文を、同じ集合に入れて分類する。そして、その集合を代表する構造を、格フレームとするものである。
ある文1と文2の類似性を計算するために、それぞれの文中の対応する格要素間の類似度を概念辞書とコーパスから獲得したデータを利用して計算するが、この時、20万文以上の規模を持つ品詞や概念識別などが人手で付けられたEDRコーパスと、多数の人間が開発に関わって作成された40万概念以上の規模を持つEDR概念辞書を利用した。しかし、この規模でさえ、実際の解析において利用した文の解析に必要となる知識をカバーできず、それゆえ、解析精度が50〜60%程度にしかならないことが分かった。特に、慣用表現や抽象的な表現に対して解析が失敗する傾向があり、これらを知識に表すことの難しさからあらためて認識できた。
上記の手法で利用した単文は、格要素が名詞単体+助詞の構造を持つもので、かつ、動詞が文の最後に来るもの(つまり、動詞が支配する格要素への連体修飾などを含まない文)であり、また、同じ名詞を含まないものに限っていたため、実際の文章中から抽出できる実験に使用する単文は、基となる文章の量に比べて非常に少なくなった。そのため、現在、格要素が複合名詞や、文や句を含む形のものや、連体修飾形を含む形、受身や使役形を扱って単文を抽出するシステムを開発するとともに、獲得した単文から、意味ネットワークを自動構成する方法も同時に開発している。

報告書

(1件)
  • 1995 実績報告書
  • 研究成果

    (4件)

すべて その他

すべて 文献書誌 (4件)

  • [文献書誌] 実成他: "動詞の格フレーム要素の自動獲得法" 情報処理学会九州支部研究集会論文集. 1-10 (1995)

    • 関連する報告書
      1995 実績報告書
  • [文献書誌] T.Mine: "A Case Frame Acquisition Method with Electronic Dictionaries" RWC Technical Report(TR-95001). 1. 39-40 (1995)

    • 関連する報告書
      1995 実績報告書
  • [文献書誌] 峯他: "動詞語義の分類法" EDR電子化辞書利用シンポジウム論文集. 1. 89-96 (1995)

    • 関連する報告書
      1995 実績報告書
  • [文献書誌] 中山他: "EDRコーパスを利用した動詞の語義分類" 電子情報通信学会「言語理解とコミュニケーション研究会」研究報告. 95-321. 23-30 (1995)

    • 関連する報告書
      1995 実績報告書

URL: 

公開日: 1995-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi