2002 Fiscal Year Annual Research Report
文の同義性を考慮した意味表現を出力できる主辞駆動句構造文法に関する研究
Project/Area Number |
13780268
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
鳥澤 健太郎 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)
|
Keywords | 自然言語の意味論 / スクリプト / 統計的自然言語処理 / 大規模コーパス / Expectation Maximization法 / 単語クラスタリング / 自然言語の意味的類似性 / 機械学習 |
Research Abstract |
本年度は文の同犠牲、あるいは文の意味の類似性をあらわす関係を大量のテキストコーパスから自動的に抽出する研究を行った。より具体的には、文の同義性、あるいは類似性をあらわす文間の関係として新たにscenario consistencyという関係を提案し、その関係を大量のテキストコーパスから自動的に学習するアルゴリズムを開発した。scenario consistencyとはSchankらによって提案された知識表現形式であるscriptに類似した概念である。Scriptとは様々な日常的な状況下での典型的な出来事の推移を記述するものであるが、scenario consistencyは一つのscriptに書かれるような一連の出来事を記述する文間の間に生ずる関係である。例えば、「レストランでビールを飲む」と「レストランでビールを買う」、「レストランでビールを楽しむ」といった表現はすべて、レストランでビールを飲む際のscriptに記述されるべき出来事をあらわしている文であると考えることができ、このような表現間の関係を大量に抽出することにより、自然言語で書かれたテキストに関する知的な推論が可能になると考えている。 具体的な学習アルゴリズムは、主辞駆動句構造文法を用いた統計的構文解析器とExpectation Maximizationアルゴリズムを用いた単語クラスタリング手法によりコーパスから抽出した情報を元にscenario consistentな表現の侯補となる文の主動詞の格フレームの意味的類似性を、計算するというものである。この学習アルゴリズムは「意味的に似た対象を補語とする動詞間でscenario consistencyが生じやすい」という仮説に基づいている。実際に3名の被験者を使った事件では、提示された文の対のうち、各被験者は平均して50%程度の対がscenario consistencyをあらわす文のついであると認めた。また、3名ともがscenario consistentであると認めた文の対は全体の40%程度であった。現状ではまだ精度が低く、今後さらに改良をする必要があると考えている。
|
-
[Publications] Kentaro Torisawa: "An unsupervised learning method for associative relationships between verb phrases"Proceedings of of the 19th International Conference on Computational Linguistics. 1009-1015
-
[Publications] Kentaro Torisawa, Kenji Nishida, Yusuke Miyao, Jun'ichi Tsujii: "CFG filtering and Parsing Strategies"Collaborative Language Engineering, CSLI Publications.
-
[Publications] Takaki Makino, Yusuke Miyao, Kentaro Torisawa, Jun'ichi Tsujii: "Native-code Compilation of Feature Structures"Collaborative Language Engineering, CSLI Publications.