研究概要 |
電子化された情報が膨大に存在する現在,ユーザが必要とする情報に効率的にアクセスするための技術が求められている.このような技術のひとつとして,日経平均株価等に関する複数の新聞記事から動向情報を抽出し,グラフとして提示する手法が提案されている.複数文書の内容をグラフ化するアプローチは,従来の複数文書要約のように複数文書の内容をひとつの文書としてまとめるアプローチと比べ,直感的にわかりやすいものであるが,グラフを見るだけでは,「なぜ数値が上がったり下がったりしているのか」,「数値の推移が社会にどのような影響を与えているのか」,といったことはわからない.しかし,これらの情報は,動向分析を行う上で,非常に重要な情報であると考えられる. 本研究では,新聞記事やblogから動向情報を抽出し可視化を行う.新聞記事を対象にした動向情報の抽出はMuSTワークショップですでに行われているが,本研究では新聞記事だけでなくblogにも拡張する.新聞記事中の数値清報の周囲に書かれている情報には,動向分析に有益なものが少なくない.しかし,新聞記事,特に報道記事には,客観的な事実しか書かれていない場合が多い.一方,blogには,客観的な事実だけではなく,blogの著者の意見や考えが多く含まれており,有用な情報源であると考えられるので,本研究では新聞記事だけでなくblogも対象にする. 提案手法の有効性を確認するため,新聞記事とblogから動向情報を抽出する実験を行った.新聞記事の場合,特に時間情報の抽出に関して,抽出すべき個所自体は特定できているものの,「同月」や「同年」といった補完が必要な表現が多く出現し,その補完に失敗するケースが多かった.これに対し,blogではこのような表現がほとんど出現していなかった。一方,数値情報の抽出精度に関しては,再現率は十分ではないものの,精度に関しては新聞記事で97%,blogで80%と,高い値が得られた.
|