魅力あるマルチメディアコンテンツにおいて、これを構成する動画・音などの複数の要素メディアの感覚的な調和が重要となる。本研究ではこの感覚的調和が要素メディアの時間・空間構造から生成されていると考え、素材映像の編集において、これらの構造を恣意的に作り出すことにより、魅力ある新たなコンテンツの制作を目指す。本年度は昨年度に引き続き、目的とする編集映像の理想例の一つである映画予告映像を対象に、動画・音ストリームをショットの並びとみなした上で、1)ショット列の時間構造、2)音ストリームとショット切り替えの空間構造を学習し、実際の映像編集への応用に取り組んだ。 1)ショット列の時間構造 ショット中の動きやショット長などに基づき、ショット列の時間構造を隠れマルコフモデルにより学習した。映画予告映像への適合度に基づいた学習モデルの評価の結果、主観的に映像のリズムの変化が感じられる境界とモデルにおける最適状態変化の境界がほぼ一致し、映像のリズム構造、及び各映像構成部分において頻出するショットの特徴が良好に学習されたことが示された。 2)音ストリームとショット切り替えの空間構造 音ストリーム上の聴覚的特徴変化をマルコフ連鎖モデルにより学習し、ショット境界モデル、非ショット境界モデルを作成した。ショット境界モデルへの適合度に基づき、再現率63.5%でショット境界との同期付けに適当なフレームを音ストリームから検出することが可能となった。 3)音と動画を用いた映像編集への応用 特に音ストリームとショット切り替えの空間構造に着目し、入力されたショット列とさまざまな種類の音楽や効果音を含んだ音ストリームから作成した映像と、同じショット列と音ストリームを単純に整列した映像を比較する9人の被験者による主観評価の結果、聴覚的変化とショット境界の関係に着目した上で、平均98.3%の被験者により、前者の方がより質が高いと評価された。
|