配分額 *注記 |
14,500千円 (直接経費: 14,500千円)
2006年度: 3,300千円 (直接経費: 3,300千円)
2005年度: 3,700千円 (直接経費: 3,700千円)
2004年度: 7,500千円 (直接経費: 7,500千円)
|
研究概要 |
本研究では,複数のジャンルのテキストで構成されるテキスト集合にも対処可能な複数テキスト要約技術の開発を行なう.一般に複数テキストを対象にした自動要約では,要約対象のテキスト集合の収集が要約の前段階として必要であり,その際,ジャンルの異なるテキストがテキスト集合中に混在する可能性がある.また,どのようなジャンルのテキスト集合を要約対象とするかで,要約の手法が異なる可能性がある.そこで本研究では,世の中に存在するテキストのジャンルとして主要と考えられるWebページ,科学論文,新聞記事の3つのジャンルを対象とし,(1)テキストのジャンルを特定する技術,(2)ジャンルごとのテキスト集合を要約する複数テキスト要約技術,(3)ジャンルごとのテキスト集合の要約をまとめ,複数のジャンルのテキスト集合から要約を作成する技術の3つに構成素を分解し,これらの開発を行ない,複数のジャンルのテキストで構成されるテキスト集合にも対処可能な複数テキスト要約技術を実現する. 文書横断文間関係タグ付コーパスを構築し,異なるテキスト中の文間関係を解析する技術,テキスト中の単語,表現が肯定的/否定的な記述をもたらすものであるかどうかを判定する技術,また,システムの出力する要約テキストを自動的に評価する技術を計算機上に実現した.そして,それらの有効性を評価した.
|