本研究の主眼は、速度と精度の両面において、充分に実用に供せる意味・文脈解析システムを開発することである。これらについて本年度は以下のことを行った。 高速化:解釈木構築は、木の枝の数がm個で、各枝に対して平均n個の語意-格組候補があるならば、探索時間はn^mという指数オーダになる。これに対し、ボトムアップ的に係り先から係り元の語意確率への影響をまず集約し、次にトップダウン的に各節の語意を決定するという2ステップによる線形オーダのアルゴリズムを開発し、20文節で1万倍の高速化を実現した(文献1)。またEDR辞書の必要な部分をメモり展開して辞書引きを5倍の高速化した(文献2)。 精度向上:複文における語と節の関係を表す格表現を新たに定め、複文で表されている内容の構造も格フレームで精密に表現できるようにした。この新表現に従い、SAGEにおいて従来の語間の解析に主として用いたEDR電子化辞書情報からの統計的な格決定に加えて、複文の接続節毎に語と節あるいは節と節間の格を、語の接続助詞、品詞や語意などから決定するルールベースを用意し、格決定方法を拡張した。この結果、従来のSAG:Eと比べて、複文に関する格の解析精度は、約30\%から約80\%へ向上した(文献3)。 応用:深層格を伴う意味レベルのゼロ代名詞補完システムとして、EDR電子化辞書を用いた語意の類似性の評価に基づく決定的手法と接続語や様相表現などの表層的な情報に基づくルールベース推論を融合した照応解析システムAnasysを開発し、ゼロ代名詞の解析評価実験を行った。その結果、検出率78.0%、補完率は81.0%となった(文献4)。 精度評価の自動化:現SAGEの精度評価については、これまで全22文からなるエレベータ問題の仕様書をもとに、あらかじめ手作業で作成した正解格フレーム群を用意しておき、これと出力フレーム群を比較することで行っていた。しかしこれでは、母数が少なすぎるし、客観性も欠けるおそれがある。そこで、EDR辞書のcorpus辞書に含まれる22万文例にのぼる専門家による解析済みコーパスと我々の成果を比較するシステムを作成した(文献1)。
|