2008 Fiscal Year Annual Research Report
自動獲得した世界知識に基づく自然言語テキスト中の関連性認識
Project/Area Number |
06J11710
|
Research Institution | The University of Tokyo |
Principal Investigator |
笹野 遼平 The University of Tokyo, 大学院・情報理工学系研究科, 特別研究員(DC1)
|
Keywords | 自然言語処理 / 照応解析 / 省略解析 / 固有表現認識 / 格フレーム / 大規模コーパス |
Research Abstract |
日本語テキスト中の照応現象の解析を目的とし、固有表現認識の高精度化、照応解析に必要な知識の自動獲得、および、自動獲得した知識を用いて照応現象を解析する手法を提案し、実験によりその有効性を示した。 本年度は特に、大規模テキストからの照応・省略解析に必要となる知識の自動獲得、および、大域的情報を用いた高精度な固有表現認識という昨年度までの研究成果に基づき、大規模テキストから自動獲得した用言格フレーム、名詞格フレームを用い、省略・橋渡し指示を確率的に解析するモデルを提案した。提案モデルでは、まず、テキスト中に出現した談話要素の認識を行い、すべてのテキスト中の表現を認識された談話要素に関連付けている。その上で、格フレームを用いてゼロ代名詞の検出を行い、さらに、格フレームや表層格、出現位置に関する選好を確率的に評価し、談話要素の中から適切な先行詞を決定している。WEBコーパスを用いた実験の結果、従来手法と比べて十分な精度を達成しており、提案モデルが省略・橋渡し指示現象を適切にモデル化できていることを確認した。 さらに、談話解析における格フレーム構築に用いるコーパスサイズの影響の調査を行った。この調査のために、160万文から16億文までの6種類の異なるサイズのコーパスから用言格フレームの構築を行い、構築された6つの格フレームを構文・格解析、省略解析に適用している。構文・格解析実験、省略解析実験の結果、より大規模なコーパスを用いることにより、これらの解析の精度が向上すること、および、さらに大規模なコーパスを用いることにより、さらなる精度の向上が望まれることを示した。
|