魅力あるマルチメディアコンテンツの特徴として、これを構成する動画・音・テキストなどの複数の要素メディアが感覚的に調和していることが重要である。本研究ではこの感覚的調和が要素メディアの時間・空間構造から生成されていると考え、素材映像の編集において、これらの構造を恣意的に作り出すことにより、魅力ある新たなコンテンツの制作を目指す。本年度はまず、目的とする編集映像の理想形に最も近い例の一つである映画予告映像を対象に、動画と音ストリームにより構成される空間構造に着目し、両ストリームをあるセグメントの並びとみなした上で、1)セグメント境界の同期関係、2)セグメントの同期関係について検討した。 1)セグメント境界の同期関係: 動画と音ストリーム間の感覚的調和感を生み出す要素の一つとしてテンポの同期が考えられる。テンポとは一般に拍により構成される。ここでは動画の拍をショット切り替え、音ストリームの拍をアクセントとする。映画予告映像の音ストリームには大きく分けて、音楽、音声、効果音が含まれているため、それぞれの音源に対し、アクセントを抽出し、ショット切り替え位置と比較した結果、約60%のショット切り替えがアクセントと同期することが確認された。 2)セグメントの同期関係: 感覚的調和感を生み出す要素のもう一つとしてリズムの同期を考える。リズムは一般になんらかの事象の時間的変化により構成される。そこで、動画及び音ストリーム上のショットに相当するセグメントを、ショット長、動き、輝度や音源など、セグメント間の時間的変化の原因となる特徴に基づきクラス分けし、各クラスの同期出現頻度についで検討した結果、大音量の音楽部分には短いショットや動きの多いショットが対応することが多いなど、動画・音セグメントのクラス間の同期関係が明らかとなった。
|