研究概要 |
本研究では,新聞記事を対象とした自動要約に注目し,高精度な複数記事の要約をおこなうための第一歩として, (1)大規模コーパスから話題テンプレートを作成し,その話題テンプレートを利用して新聞記事から注目する記事の続報記事を高精度で抽出する.抽出した続報記事を話題クラスタごとに分類する (2)話題クラスタごとの要約を行い,クラスタ間のつながりを考慮し,続報記事全体の要約を行う。 ことを目的とし,研究を行った. (1)では話題テンプレートや機械学習(Support Vector Machines)を用いて続報記事を抽出する手法を提案した.提案手法を用いて大規模コーパス(Topic Detection and Trackingのコーパスや毎日新聞コーパス)から続報記事を抽出する実験を行い,本手法が続報記事を高精度で抽出できることを示した(論文4,5). (2)に関しては,具体的にはクラスタ内の要約のために,クラスタに集められた文中の類似単語を検出する必要があることがわかり,類似名詞の抽出を行った(論文3,4).類似名詞の抽出のためにHindleの手法とLinの手法を比較し,日本語文書に対してはLinの手法がHindleの手法より勝っていることを示した.またLinの手法を日本語記事に適応させた類似名詞抽出手法を提案した. また,抽出された類似単語と記事のタイトルを利用して重要文抽出を行った(論文1,2).Linの手法を基に(論文3,4)で提案した手法を用いて記事のタイトル中の単語の類似単語を本文中より抽出し,重要文抽出に利用した.毎日新聞の記事とNTCIR2の重要文抽出タスクの解答を利用して重要文抽出実験を行い,本研究で抽出した類似単語の情報が重要文抽出に有用であることを示した.
|