研究概要 |
本研究では,多様なテキスト集合に対処可能な複数テキスト要約技術の開発を行なう.一般に複数テキストを対象にした自動要約では,要約対象のテキスト集合の収集が要約の前段階としてテキスト検索システム等で行なわれるが,その際,性質(ジャンル,事実を述べているのか/意見を述べているのか等)の異なるテキストがテキスト集合中に混在する可能性がある.また,テキスト集合中のテキスト間の関係も様々である(たとえば,特定の事件に関する一連の報道なのか,同じ種類の複数の事件に関する報道を集めたものなのか,等).したがって,要約対象のテキスト集合中のテキストの性質,テキスト間の関係を同定し,それを元にした要約手法を開発する必要がある.そこで本研究では,要約システムを,(1)テキスト集合中のテキストの性質(ジャンル,事実を述べているのか/意見を述べているのか等)を特定する技術,(2)(1)の情報を考慮して,テキスト集合中のテキスト間の関係を特定する技術,(3)(1),(2)の情報を元に,テキスト集合から要約を作成する技術の3つの構成素に分解し,これらの開発を行ない,多様なテキスト集合に対処可能な複数テキスト要約技術を実現する. 16年度では,(1)を開発するとともに,(2),(3)を開発するための基礎的な分析,検討を行なった. 1)テキスト中の各文が事実を記述する文なのか/意見を述べる文なのかを自動判別する技術を開発した.この情報は,テキストのジャンル特定(たとえば,報道記事なのか社説なのか,日記かどうか等)および,テキストからの重要文抽出の際に利用される. 2)テキスト集合中のテキスト間の関係を特定する技術,異なるテキスト中の文間の関係を解析する技術に関する分析,検討を行なった. 2)(3)の要素技術として,(i)テキスト集合中のテキストのジャンル,テキスト間の関係を元に,要約テキストの構造を決定する枠組および,(ii)異なるテキスト中の文間の関係を考慮して,テキストから重要文を抽出する技術に関する分析,検討を行なった.
|