研究概要 |
本研究では,新聞記事を対象とした自動要約に注目し,高精度な複数記事の要約をおこなうための第一歩として, (1)大規模コーパスから話題テンプレートを作成し,その話題テンプレートを利用して新聞記事から注目する記事の続報記事を高精度で抽出する.抽出した続報記事を話題クラスタごとに分類する。 (2)話題クラスタごとの要約を行い,クラスタ間のつながりを考慮し,続報記事全体の要約を行う. ことを目的とする. 本年度は昨年度の(1)に引き続き,上記(2)に対し研究を行った.具体的にはクラスタ内の要約のために,クラスタに集められた文中の類似単語を検出する必要があることがわかり,類似名詞の抽出を行った(論文3).類似名詞の抽出のためにHindleの手法とLinの手法を比較し,Linの手法を日本語記事に適応させた手法を提案した.また,抽出された類似単語と記事のタイトルを利用して重要文抽出を行った(論文1,2).Linの手法を基に(論文3)で提案した手法を用いて記事のタイトル中の単語の類似単語を本文中より抽出し,重要文抽出に利用した.
|