2001 Fiscal Year Annual Research Report
日本語文章の常識を用いた意味理解・文脈理解システムの開発研究
Project/Area Number |
13680461
|
Research Institution | Aoyama Gakuin University |
Principal Investigator |
原田 実 青山学院大学, 理工学部, 教授 (10218654)
|
Keywords | 意味解析 / 照応解析 / 深層格 / 語意 / ゼロ代名詞 / 複文解析 / 従属節 / 連体節 |
Research Abstract |
本研究の主眼は、速度と精度の両面において、充分に実用に供せる意味・文脈解析システムを開発することである。これらについて本年度は以下のことを行った。 高速化:解釈木構築は、木の枝の数がm個で、各枝に対して平均n個の語意-格組候補があるならば、探索時間はn^mという指数オーダになる。これに対し、ボトムアップ的に係り先から係り元の語意確率への影響をまず集約し、次にトップダウン的に各節の語意を決定するという2ステップによる線形オーダのアルゴリズムを開発し、20文節で1万倍の高速化を実現した(文献1)。またEDR辞書の必要な部分をメモり展開して辞書引きを5倍の高速化した(文献2)。 精度向上:複文における語と節の関係を表す格表現を新たに定め、複文で表されている内容の構造も格フレームで精密に表現できるようにした。この新表現に従い、SAGEにおいて従来の語間の解析に主として用いたEDR電子化辞書情報からの統計的な格決定に加えて、複文の接続節毎に語と節あるいは節と節間の格を、語の接続助詞、品詞や語意などから決定するルールベースを用意し、格決定方法を拡張した。この結果、従来のSAG:Eと比べて、複文に関する格の解析精度は、約30\%から約80\%へ向上した(文献3)。 応用:深層格を伴う意味レベルのゼロ代名詞補完システムとして、EDR電子化辞書を用いた語意の類似性の評価に基づく決定的手法と接続語や様相表現などの表層的な情報に基づくルールベース推論を融合した照応解析システムAnasysを開発し、ゼロ代名詞の解析評価実験を行った。その結果、検出率78.0%、補完率は81.0%となった(文献4)。 精度評価の自動化:現SAGEの精度評価については、これまで全22文からなるエレベータ問題の仕様書をもとに、あらかじめ手作業で作成した正解格フレーム群を用意しておき、これと出力フレーム群を比較することで行っていた。しかしこれでは、母数が少なすぎるし、客観性も欠けるおそれがある。そこで、EDR辞書のcorpus辞書に含まれる22万文例にのぼる専門家による解析済みコーパスと我々の成果を比較するシステムを作成した(文献1)。
|
-
[Publications] 原田 実, 田淵 和幸, 大野 博之: "日本語意味解析システムSAGEの高速化・高精度化とコーパスによる精度評価"情報処理学会論文誌. (印刷中). (2002)
-
[Publications] 伊澤 友輔, 浜崎 友子, 原田 実: "EDR電子化辞書のオンメモリ検索による意味理解の高速化"情報処理学会第64回全国大会論文集. 4M-05. 63-64 (2002)
-
[Publications] 大野 博之, 原田 実: "複文の格表現の提案と意味解析システムSAGEの複文への拡張"情報処理学会第64回全国大会論文集. 3M-04. 49-50 (2002)
-
[Publications] 南 旭瑞, 原田 実: "語意の類似性を用いた照応解析システムの開発Anasys"情報処理学会第64回全国大会論文集. 3M-06. 53-54 (2002)