研究概要 |
従来から抄録や要約に関する様々な研究がおこなわれているが,これらの多くは,主に一つの記事(文書)の内容を要約することに重点を置いているため,新聞やニュースのような一つのイベントに対して複数の記事が存在するテキストに適用した場合,複数の記事によって表される情報(時間的なイベントの変化など)をうまく要約することができないという問題がある.そこで、ある話題の記事に対して重要と考えられる項目をあらかじめテンプレートとして用意しておき、それを用いて抽出した各記事のデータから要約を作り出すことが考えられる.このような考え方をもとにした要約処理の研究はなされつつあるが、現段階では,テンプレートの作成は話題ごとに人手によっておこなわれている.本研究では,新聞記事を対象とし,要約のためのテンプレートを,ある話題に関する記事集合から自動的に抽出することを目的とする. 本研究で提案するテンプレートの自動抽出手法では,テンプレートの形式を、「動詞+格要素(その格に望ましい意味カテゴリ名を含む)」の意味的に類似した集合という形で表し,「話題で重要な表現=話題に固有な表現」という仮定のもとに,対象の話題の記事の出現頻度とランダムに集めたサンプル記事の出現頻度をもとに計算した重要度という値を用いてテンプレートを抽出する. 本手法を、日本経済新聞の4つの話題(地震,交通事故,火災,記者会見)に適用し,作成したテンプレートを用いて実験をおこなった結果,話題で重要と考えられるテンプレートが抽出され,本テンプレートを,ある話題において重要でない記事を取り除くフィルタ的な利用が可能であることが確認した.
|