• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2002 年度 実績報告書

文の同義性を考慮した意味表現を出力できる主辞駆動句構造文法に関する研究

研究課題

研究課題/領域番号 13780268
研究機関北陸先端科学技術大学院大学

研究代表者

鳥澤 健太郎  北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)

キーワード自然言語の意味論 / スクリプト / 統計的自然言語処理 / 大規模コーパス / Expectation Maximization法 / 単語クラスタリング / 自然言語の意味的類似性 / 機械学習
研究概要

本年度は文の同犠牲、あるいは文の意味の類似性をあらわす関係を大量のテキストコーパスから自動的に抽出する研究を行った。より具体的には、文の同義性、あるいは類似性をあらわす文間の関係として新たにscenario consistencyという関係を提案し、その関係を大量のテキストコーパスから自動的に学習するアルゴリズムを開発した。scenario consistencyとはSchankらによって提案された知識表現形式であるscriptに類似した概念である。Scriptとは様々な日常的な状況下での典型的な出来事の推移を記述するものであるが、scenario consistencyは一つのscriptに書かれるような一連の出来事を記述する文間の間に生ずる関係である。例えば、「レストランでビールを飲む」と「レストランでビールを買う」、「レストランでビールを楽しむ」といった表現はすべて、レストランでビールを飲む際のscriptに記述されるべき出来事をあらわしている文であると考えることができ、このような表現間の関係を大量に抽出することにより、自然言語で書かれたテキストに関する知的な推論が可能になると考えている。
具体的な学習アルゴリズムは、主辞駆動句構造文法を用いた統計的構文解析器とExpectation Maximizationアルゴリズムを用いた単語クラスタリング手法によりコーパスから抽出した情報を元にscenario consistentな表現の侯補となる文の主動詞の格フレームの意味的類似性を、計算するというものである。この学習アルゴリズムは「意味的に似た対象を補語とする動詞間でscenario consistencyが生じやすい」という仮説に基づいている。実際に3名の被験者を使った事件では、提示された文の対のうち、各被験者は平均して50%程度の対がscenario consistencyをあらわす文のついであると認めた。また、3名ともがscenario consistentであると認めた文の対は全体の40%程度であった。現状ではまだ精度が低く、今後さらに改良をする必要があると考えている。

  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] Kentaro Torisawa: "An unsupervised learning method for associative relationships between verb phrases"Proceedings of of the 19th International Conference on Computational Linguistics. 1009-1015

  • [文献書誌] Kentaro Torisawa, Kenji Nishida, Yusuke Miyao, Jun'ichi Tsujii: "CFG filtering and Parsing Strategies"Collaborative Language Engineering, CSLI Publications.

  • [文献書誌] Takaki Makino, Yusuke Miyao, Kentaro Torisawa, Jun'ichi Tsujii: "Native-code Compilation of Feature Structures"Collaborative Language Engineering, CSLI Publications.

URL: 

公開日: 2004-04-07   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi