2001 Fiscal Year Annual Research Report
文の同犠性を考慮した意味表現を出力できる主辞駆動句構造文法に関する研究
Project/Area Number |
13780268
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
鳥澤 健太郎 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)
|
Keywords | 主辞駆動句構造文法 / 統計的言語学習 / 意味解釈 / 言い換え / 自動シソーラス構築 / 意味ネットワーク / シソーラス |
Research Abstract |
本年度は、同じ意味を持つと考えることができる自然言語の表現を大量の自然言語テキストから自動的に学習する手法について研究した。より具体的には、大量の自然言語テキストに主辞駆動句構造文法を用いた構文解析器を適用し、その解析結果にExpectation Maximization法と呼ばれる統計的手法を適用して、確率的シソーラス並びに確率的意味ネットワークを生成した。この確率的シソーラスにより、日本語の格解析、すなわち「ビールは飲んだ」は「ビールが飲んだ」ではなく、「ビールを飲んだ」を意味しているということを解析することが可能となり、さらには、「AのB」の形態をとる日本語名詞句の意味解析、例えば「レストランのビール」は「レストランで飲むビール」を意味しているといったことがある程度の精度で解析可能となる。また、他にも日本語動詞句の意味的類似性も計算が可能となる。(例えば、「レストランでビールを飲むjと「レストランでビールを楽しむ」が類似した意味を持つといったこと。 通常、このような結果を得るためには大規模な高精度の辞書、ならびにシソーラスが必要であるが、本研究ではこれらの言語リソースを使うことなく、構文解析器と統計的手法でこれらの結果を得た。また、通常の辞書ではカバーしきれない例の解析に成功する場合も見られ、興味深い結果が得られたと考えている。例えば、「アメリカの車」は通常「アメリカで作られた車」と解釈すべきものと考えることができるが、このような解釈は既存の辞書を利用したのでは得られない。アメリカは「なにかを作る場所」と定義することはできないし、車は「アメリカで作られたもの」とは定義されないので、「アメリカの車」から辞書を用いて「アメリカで作られた車」と解釈することは不可能である。にもかかわらず、我々の手法では大量のテキストから得られた情報をもとに、以上のような解釈を得ることに成功している。 今後はこれらの手法を、より広範囲な事例に適用し、また、「文全体に対する意味解釈」を出力できる文法を作成するため、以上の手法と文法との統合に関する研究を行う予定である。
|
Research Products
(2 results)
-
[Publications] Kentaro Torisawa: "A Nearly Unsupervised Learning Method for Automatic Paraphrasing of Japanese Noun Phrases"Proceedings of the Workshop on Automatic Paraphrasing. 63-72 (2001)
-
[Publications] Kentaro Torisawa: "An Unsuperveised Method for Canonicalization of Japanese Postpositions"Proceedings of the 6th Natural Language Processing Pacific Rim Symposium(NLPRS 2001). 211-218 (2001)