2002 Fiscal Year Annual Research Report
Web上のテキストデータを対象とした複数テキスト要約に関する研究
Project/Area Number |
14019036
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
奥村 学 東京工業大学, 精密工学研究所, 助教授 (60214079)
|
Co-Investigator(Kenkyū-buntansha) |
難波 英嗣 広島市立大学, 情報科学部, 講師 (50345378)
|
Keywords | テキスト自動要約 / 知的情報統合 / 伝記自動作成 / 年表自動作成 / 批評情報の集約 |
Research Abstract |
近年インターネットの普及により,Web上に大量のテキストが満ち溢れ,情報洪水という言葉がしばしば使われる.このため,ユーザがWebから情報を収集するのを支援する技術が求められている.本研究では,大規模でかつ分散したテキストデータを統合し,より利用し易い形式に加工することを目指した,Web上の複数テキストを対象にした自動要約とそれを利用した知的情報統合に関する技術の開発を行なう. 一般に複数テキストを対象にした自動要約では,要約対象のテキスト集合の収集が要約の前段階として必要であり,また,どのようなテキスト集合を要約対象とするかで,要約の手法も異なる可能性がある.そこで本研究では,(1)具体的な人物,もの,場所などを主題とするテキスト集合からの要約作成,(2)より一般的なテキスト集合(たとえば,現在上映されている映画に関するページ集合)を対象とする要約作成の2つに区分し,これらをこの順に扱う. 14年度ではまず,(1)人物,もの,場所などに関するテキスト集合からの自動要約として,人物に関する伝記(biography)作成を実現した.その要素技術として,該当するテキストのみをWeb上から収集する技術,それらのテキスト集合から,テキストの内容の質により適切なテキストのみを選択する技術,選択したテキスト集合から,要約に含めるべき重要個所を抽出する技術,さらに,類似の情報を含む複数のテキストが存在することによる冗長性の問題に対処するため,冗長な個所(テキスト間の共通個所)を検出し削除する技術からなる要約技術を開発した.
|