研究概要 |
本研究の主眼は,速度と精度の両面において,充分に実用に供せる意味・文脈解析システムSAGEを開発することである.この目的のために既開発のプロトタイプをベースに下記のような精度と速度の向上を行い,またその精度を半自動的に測定する評価システムEvalSageも開発し精度評価を行った. 精度向上:SAGEにおいて従来の語間の解析に主として用いたEDR電子化辞書情報からの統計的な格決定に加えて,複文の接続節毎に語と節あるいは節と節間の格を,語の接続助詞,品詞や語意などからルールベース的に決定できるように拡張した.また連体表現においては,体言を修飾する用言の格を決定できるようにした.固有表現の解析においては,EDRに未登録語が出現した場合似たような概念を持つEDR登録語に置き換えて深層格の解析を行うようにした.括弧を含む表現においては,括弧内の内容を,補足,代理,補完に分けて解析できるようにした.これらによって,EDRコーパスで語意精度90.2%,深層格精度90.0%,インターネット・新聞記事で,語意精度87.0%,深層格精度86.8%の精度を達成した. 高速化:解釈木構築は,木の枝の数がm個で,各枝に対して平均n個の語意-格組候補があるならば,探索時間はn^mという指数オーダになる.これに対し,ボトムアップ的に係る側から受ける側の語意確率への影響をまず集約し,次にトップダウン的に各節の語意を決定するという2ステップによる線形オーダーのアルゴリズムを開発し,1万倍の高速化を実現した.またEDR辞書の必要な部分をメモリ展開して辞書引きを5倍高速化した.さらに,システム全体をC言語に書き直し,これらをデータ並列化することでさらに5倍の速度向上を達成した. なお応用として,要約システムABISYSと照応解析システムANASYSも開発した.
|