2008 Fiscal Year Annual Research Report
Project/Area Number |
20700138
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
飯田 龍 Tokyo Institute of Technology, 大学院・情報理工学研究科, 助教 (40464276)
|
Keywords | 自然言語処理 / 根拠情報抽出 |
Research Abstract |
本研究課題では, 文章中に記述された書き手の意見情報の抽出問題を, (a)「よい」「すばらしい」などの評価表現や「〜と思う」「〜らしい」といった表現を伴って出現する意見の"帰結"部分と(b)帰結部分を修飾する"根拠"が記述された談話単位を構造化する問題として扱う. 20年度は研究計画に従い, この帰結と根拠の関係をどのように文章に付与するかを吟味し, 暫定的なタグ付与仕様の作成を行った. 実際に作業をやるために作業内容を簡潔にしつつ, かつ応用処理に有用な課題とするために, おおきく(1) 根拠帰結の関係は広く原因・理由・動機・根拠・目的などを含めた関係に付与, (2) 談話のセグメントは明示的に決定せず, 主辞にタグ付与, という2つを作業基準として採用した. この仕様に従い, "捕鯨問題"や"再販問題", "iPod"など9種類のキーワードを含む約3000のWeb文書断片について, 約4000の根拠・帰結関係を人手で付与した. 次にこの人手で付与した関係をどの程度自動で同定できるかを調べるために, 照応解析などで利用される機械学習に基づく関係抽出の手法を適用し, 同定精度の評価を行った.評価実験の結果, 人手で付与した関係のうち再現率5割, 精度6割で抽出できることを示した.また, 抽出誤りの原因を人手で調査したところ, 2つの表現間に手がかりとなる接続表現がない連用中止やテ形接続の場合は学習・分類が困難なことがわかった.この問題を解決するため, 根拠(もしくは帰結)側にどのような表現が表れるかをあらかじめ静的に獲得し, その情報も用いて自動解析することを21年度の取り組みの一つとする.
|