研究概要 |
World Wide Webや放送メディアで配信される大量かつ不均一な情報(作成者,作成の目的,メディアなどが異なる無関係な情報)から,マルチメディア事典コンテンツを自動構築するための基盤研究を行う.具体的には,テキスト,音声,画像ファイルを収集し,事物(専門用語,動植物,事件,人名など)に関する情報を抽出し,関連付け,再構成することで一貫性のある解説的コンテンツを構築する. 研究代表者の藤井は, IPA未踏ソフトウェア創造事業で,見出し語数75万語の事典コンテンツをWeb情報から自動構築した.当コンテンツは,事典検索サイトCyclone (http://cyclone.slis.tsukuba.ac.jp)で公開されている.しかし, Cycloneのコンテンツはテキスト情報だけなので,音声,画像を統合することでマルチメディア化を進めた.画像で説明することの利点が高い見出し語(動植物や装置など)を対象に, Cycloneの説明テキストに画像ファイルを対応付ける研究を行った.本研究を大規模に展開するために, Webから画像ファイルを収集し,画像検索エンジンを独自に開発した.また,テキストと動画像を対応付ける研究を行った.講演ビデオを対象として,ビデオ中の音声情報を抽出し,音声認識システムによって自動的にテキストに転記し,さらに索引付けすることで,テキスト検索技術を用いて講演ビデオから特定のシーンを検索することを可能にした.さらに, Web上の主観情報を対象としてテキスト情報の特徴を可視化する研究,多言語情報を統合するための翻字手法に関する研究を行った.
|