研究概要 |
World Wide Webや放送メディアで配信される大量かつ不均一な情報(作成者,作成の目的,メディアなどが異なる無関係な情報)から,マルチメディア事典コンテンツを自動構築するための基盤研究を行う.具体的には,テキスト,音声,画像ファイルを収集し,事物(専門用語,動植物,事件,人名など)に関する情報を抽出し,関連付け,再構成することで一貫性のある解説的コンテンツを構築する. 研究代表者の藤井は,IPA未踏ソフトウェア創造事業で,見出し語数75万語の事典コンテンツをWeb情報から自動構築した.当コンテンツは,事典検索サイトCyclone(http://cyclone.slis.tsukuba.ac.jp)で公開されている.しかし,Cycloneのコンテンツはテキスト情報だけなので,音声,画像を統合することでマルチメディア化を進める. 平成17年度は,画像で説明することの利点が高い見出し語(動植物や装置など)を対象に,Cycloneの説明テキストに画像ファイルを対応付ける研究を行った.具体的には,Webページから画像ファイルの周辺テキストを抽出し,Cycloneの説明テキストと類似する内容であれば,両者を対応付ける.テキスト検索技術を応用して,2つのテキストの類似度を計算する.本研究を大規模に展開するために,Webから画像ファイルを収集し,画像検索エンジンを独自に開発した. さらに,コンテンツを検索するために,テキストや音声による質問応答の研究を行った.具体的には,人名や地名などの固有名を問う質問に対して,テキスト解析を行って回答が含まれる箇所を特定し,回答を抽出してユーザに提示する.
|