研究概要 |
本研究では,新聞記事を対象とした文書要約に注目し,複数文書の自動要約を行うための第一歩として,(1)大規模コーパスを利用して話題テンプレートを作成する. (2)時間情報,2記事間の類似度,話題テンプレート中の類似記事などを積極的に利用して,精度の高い続報記事の抽出を行う. (3)抽出した続報記事を複数の話題クラスタに分類する.ことを目的とした. 本年度は,上記(1)について,大規模コーパスから話題テンプレートを作成する手法を提案し,Reuters 1996 Corpusの81万記事を利用して話題テンプレートを作成した(論文1) また(2)については,(1)で作成した話題テンプレートを用いて続報記事を抽出する手法を提案し,Topic Detection and Tracking ProjectのTDT1コーパス(Reuters newswireとCNN TV news 1994-1995)を用いた実験で,高精度で続報記事が抽出できることを確認した(論文1) (3)については,Hindleの類似度計算に基づく単語類似度計算手法を開発した.また対象記事と類似した記事を抽出し,その結果を用いて続報記事を話題ごとに分類する手法を開発した.現在その手法に関する論文を執筆中である.
|