我々は前回の科研費テーマ(2005~2007年)で音声/音楽の区間を抽出しその情報を構造化する方式を研究開発した。本テーマではこれを発展させ、音響・映像情報のインデキシングに基づく音響・映像の高度検索技術・双方向検索技術の確立を目指し、以下の機能の実現を図った。 (1)音響・音声情報のインデキシング方式:数百時間のビデオ群を想定したビデオ情報の音響情報を抽出し、音声などに音響情報に対して、インデキシング化を図った。(2) 映像情報のインデキシング方式:同様に大量なビデオや静止画情報に対してインデキシング化を図った。(3)高度・双方向検索方式の研究開発:検索用に構造化した、音響・映像のインデックス情報をもとにユーザからの検索要求に対して、対応する音声区間やビデオ区間を提供する方式を研究開発し、そのプロトタイプシステムを実現を図った。本研究テーマの実施により以下の方式が実現がなされた。 ・音声区間のアノテーション方式:音声区間に対しサブワードによる音声認識を実施し、音節バイグラムとしてインデックス化する方式を研究開発した。ユーザが検索キーワードを与えるとキーワード中の音節バイグラムから、音声ドキュメント中にその音節バイグラムが出現する位置を特定し、高速に検索できる技術を実現した。 ・動画あるいは静止画中の類似画像をParticle Swarm Optimization(PSO)等を用いることにより高速に検索する方式の研究開発を行った。 ・双方向検索の実現に向け「音声情報を用いての物体検索・検出システム」のプロトタイプシステムを構築しその実現可能性を示した。 上記に方式により、ユーザは大規模なビデオデータ、自宅のハードディスクに入れたビデオやインターネット上のビデオを容易に、言葉や画像での検索ができる可能性を示した。
|