研究概要 |
本研究の主眼は,速度と精度の両面において,充分に実用に供せる意味・文脈解析システムSAGEを開発することである.この目的のために本年度も前年度に引き続き以下の事を行い,下記のような成果を得た.また応用として.要約システムABISYSと照応解析システムANASYSの高度化を行った. 精度向上:前年度開発したEvalSageを用いて昨年度のSAGEの解析結果を評価した結果,精度上問題があったので次のような改良を行った.固有表現の解析において,EDRに未登録語が出現した場合似たような概念を持つEDR登録語に置き換えて深層格の解析を行うようにした,同様のテクニックで疑問詞に関係する格も解析した.括弧を含む表現においては,括弧内の内容を,補足,代理,補完に分けて分析できるようにし,modifier格やor格を出力するようにした.これらによって,EDRコーパスで語意精度90.2%,深層格精度90.0%,インターネット・新聞記事で,語意精度87.0%,深層格精度86.8%の精度を達成した.さらに,解析出力として従来の格フレームに加えて,概念グラフを出力できるようにした.このために,時制や様相の解析とレフェレントの解析を追加した. 高速化:preSAGE, SAGE, postSAGEを全てC言語に書き直し,さらに茶筅,南瓜,JUMAN, KNP,などの態素解析や係り受け解析から一貫して呼び出して実行するようにし,さらにこれらをデータ並列化することで従来の5倍の速度向上を達成した. 文脈解析システムの精度向上:指示代名詞の先行詞の特定やゼロ代名詞の検出と先行詞の特定を行う照応解析システムANASYSの精度向上を行い,それぞれ精度87.5%,83.3%,75.2%を達成した. 要約システムの精度向上:SAGEが出力した格フレーム群を入力して要約文を生成するABISYSの要約手法を改善した.重要語句の選定において,反復得点のみでなく,位置得点,意見語得点,主題・焦点得点,の4つの得点を設定しマハラノビスの汎距離によって重要語確率を求めるようにした.また自然な日本語の要約文を生成するルールを洗練化した.この結果,比較実験によれば人による要約例とほぼ同程度の内容をカバーする比較的読みやすい要約文を生成できるようになり、従来の他研究のどれよりも優秀な成績を収めた.なお、この研究は情報処理学会第66回全国大会の学生セッション6Uにおいて学生奨励賞を受賞した.
|