研究概要 |
平成11年度は,ビデオ教材をディジタル化すると共に,内容記述として映像では,カット検出とテロップ検出を実行し,音声では,講師の音声をディクテーションした.これらをべースに更に詳細な内容記述を行う研究と,統合化する研究は次年度行う予定である. (1)ビデオ教材のディジタル化…ビデオ教材8巻(8時間分)程度を,購入したワークステーションとRAIDを使って,圧縮形式でディジタル・アーカイビングした.また,非圧縮でも実時間で動画をディジタル・アーカイビングできるようにした.その後,シーンカットを検出して構造化する研究を行った. (2)音声ディクテーションによる内容記述…各シーンにおいて,音声ディクテーションを行い,重要なキーワードを抽出する研究を行った.キーワードの抽出では,我々が提案した相互情報量を考慮したTF-IDFを用いている.ディクテーションの方法としては,ニュース番組でよく使われる2万単語の辞書を用い,単語間連鎖であるバイグラムを学習した.音響モデルである隠れマルコフモデル(HMM)は,2万文章から学習した不特定話者用の音素HMMを用いている. (3)テロップ・フリップ認識による内容記述…各シーンにおいて,テロップならびにフリップの検出を行い,文字認識して重要なキーワードを抽出した.フリップやテロップフレームの検出方法は,ニュース番組で既に開発したソフトウェアを用いている.テロップの切り出しでは,定常状態区間を検出し,テロップ認識では,市販のOCRを用いている. (4)類似映像の検出によるシーン間のハイパーリンク…各シーンの映像とよく似ている映像を精度良く高速に見つけるための新しい画像照合方法を研究した.手法としては,色彩や動きの情報を2次元のベクトル場として記述し,その局所的な相違度が小さい映像区間を検出している.その際,ベクトル場の方向分布や相違度の時空間的対称性を考慮している.こうすることで,内容が類似しているシーンを異なる映像区間からまとめて検索できるようになる.
|