1997 Fiscal Year Annual Research Report

種々の統計情報を統合した統計的自然言語解析に関する研究

Research Project

Project/Area Number	09878066
Research Institution	Tokyo Institute of Technology
Principal Investigator	田中穂積東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)
Co-Investigator(Kenkyū-buntansha)	徳永健伸東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875) 乾健太郎東京工業大学, 大学院・情報理工学研究科, 助手 (60272689)
Keywords	自然言語処理 / 統計的構文解析 / 語彙的従属関係 / 日本語係り受け解析
Research Abstract	本研究では,構文解析の曖昧性解消を行うために,構文的な統計情報と語彙的な統計情報を統合する手法を提案する.我々が提案する統合的確率言語モデルは,構文的優先度などの構文的な統計情報を反映する構文モデルと,単語の出現頻度や単語の共起関係などの語彙的な統計情報を反映する語彙モデルの2つの下位モデルから成る.この統合的確率言語モデルは,構文的な統計情報と語彙的な統計情報を同時に学習する去の多くのモデルと異なり,両者を個別に学習する点に特徴がある.構文的な統計情報と語彙的な統計情報を独立に取り扱うことにより,それぞれの統計情報を異なる言語資源から独立に学習することができるだけでなく,それぞれの統計情報が曖昧性解消においてどのような効果を果たすのかを容易に分析することができる.この統合的確率言語モデルを評価するために,日本語文の文節の係り受け解析を行った.構文モデルを用いたときの文節の正解率は73.38$%となり,ベースラインに比べて11.70$%向上した.また,構文モデルと語彙モデルを組み合わせることにより,文節の正解率はさらに10.96$%向上し84.34$%となった.この結果,本研究で提案する枠組において,語彙的な統計情報は構文的な統計情報と同程度に曖昧性解消に貢献することを確認した.なお,本研究の成果は下記国際会議で報告されている。 Kiyoaki Shirai,Kentaro Inui,Hozumi Tanaka,Takenobu Tokunaga.An Empirical Study on Statistical Disambiguation of Japanese Dependency Structures Using a Lexically Sensitive Language Model.Proceedings of Natural Language Processing Pacific Rim Symposium,1997.