1997 年度実績報告書

自己増殖型言語知識ベース構築技術に関する研究

研究課題

研究課題/領域番号	09308009
研究種目	基盤研究(A)
研究機関	東京工業大学
研究代表者	田中穂積東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)
研究分担者	乾健太郎東京工業大学, 大学院・情報理工学研究科, 助手 (60272689) 徳永健伸東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)
キーワード	自然言語処理 / 言語知識獲得 / MSLR構文解析法 / 確率GLR構文解析法 / 形態素接続表
研究概要	本研究では,自然言語処理技術の中で技術的に成熟した形態素解析技術,構文解析技術と,既存の言語知識ベースとを用いて,文書から種々の言語知識ベースを自己増殖的に構築する技術の開発に焦点を絞って研究を行ている.この目的にそって,本年度は以下の研究を行った. 第1に,言語知識ベースが皆無では自己増殖が不可能なことは明かであるので,本研究では初期の言語知識ベースとして日本語EDRコーパスと日本語EDR辞書を用いた.さらに,形態素解析で用いる初期の接続表として,電子化辞書研究所と我々が人手で開発したものを用いた.この接続表には誤りが散見されることが予備実験からすでにわかっていたので,人手で作成した接続表の誤りを統計的手法により自動的に検出し,修正する技術を開発し,実験によりその有効性を確認した. 第2に,我々が以前に開発した,形態素解析と構文解析を完全に統合化して行うMSLR法をベースにした自然言語処理システムをツール化する作業を進めた. 第3に,GLR構文解析法の解析動作に確率的優先度を与え,解析候補を統計的に絞り込む確率GLR構文解析法を新しく開発し,これを上記のツールに組み込んだ.これについては,確率モデルの理論的定式化と考察,実データによる定量的検証の結果,それぞれについて下記国際会議で報告した. Inui,K., Sornlertlamvanich, V., Tanaka,H., Tokunaga,T. A New Formalization of Probabilistic GLR Parsing. International Workshop on Parsing Technologies, Boston, 1997. Virach Sornlertlamvanich, Kentaro Inui, Kiyoaki Shirai, Hozumi Tanaka, Takenobu Tokunaga, Toshiyuki Takezawa. Empirical Evaluation of Probabilistic GLR Parsing. Proceedings of Natural Language Processing Pacific Rim Symposium, 1997.