研究概要 |
電子化された文書が膨大に存在する現在,ユーザが必要とする情報に効率的にアクセスするための技術が求められている.そこで近年,自然言語処理の分野で活発に研究されている研究領域の一つに,複数文書要約がある.複数文書要約とは,あるトピックに関する複数の文書の内容をまとめ,要約を作成する技術のことをいう.一般的には,ここで出力する要約とは文章を指すが,ある種の情報は,文章よりもグラフとして出力した方が分かりやすい場合がある.例えば「ある期間の日経平均株価の推移」や「内閣支持率の推移」といった内容は,文章よりもグラフとして提示される方が,ユーザにとって直感的に理解しやすい.ここで,株価や内閣支持率の推移のように,数値が時間とともに常に変動するような情報を動向情報と呼ぶ.本研究では,あるトピックに関する複数の文書から,動向情報を抽出し,グラフを自動的に作成するシステムの構築を目指す^1. 文書集合から動向情報を抽出・グラフ化するには,まず数値情報を抽出し,次にその数値に対応する時間情報を抽出する必要がある.しかし,文書中にはグラフ化する上で必要な数値情報や時間情報と,必要でないものとが混在しているため,両者を区別する必要がある.この処理を行うため,本研究では文書横断文間関係理論(CST)に着目する.CSTとは,Radevらが提唱している理論で,文書中の各文の機能を特定し,文間の依存関係を特定する修辞構造理論(RST)を,文書間関係に拡張したものである.本研究では,CSTの一部を計算機上で実現し,それを用いてグラフ化に必要な数値情報と時間情報の抽出を行う. 提案手法の有効性を調べるために行った実験の結果,約85%の再現率と精度で数値情報と時間情報の抽出ができることがわかった.
|