2013 年度実績報告書

音と映像の複合分析による動画コンテンツ理解の研究

研究課題

研究課題/領域番号	13J05483
研究機関	早稲田大学
研究代表者	平井辰典早稲田大学, 理工学研究科, 特別研究員DC1
キーワード	Audio-Visual Integration / Video indexing / 音楽動画コンテンツ / 鑑賞支援
研究概要	平成25年度には、音楽動画中の内容理解技術に関して、主に以下の三点について取り組んだ。 ①歌手の歌唱に関する音と映像の関係性に関する調査 ②歌手の歌唱に関して、音と映像のそれぞれのモーダルの認識技術とそれらの組み合わせによってどれだけの精度向上が期待できるかの検証 ③音と映像の複合分析による楽器パートのモデリング及び演奏者の識別手法の検討具体的には、音楽動画中で歌手が歌っている歌唱シーン(音楽動画において、音楽中で歌声が聞こえていて、なおかつ映像中で歌手が対応する歌を歌っているシーン)を認識したいというときに、顔認識(映像分析)技術のみでどれくらいの精度でそれが達成できるか、歌声認識(音分析)によってどれだけの精度で達成できるか、またそれらの組み合わせによってどのような認識結果を出すことができるかなどを検証してきた(①、②)。さらに、これを応用して音楽動画中の歌唱シーンを認識するための一手法を提案した。これにより、音楽動画中の歌唱シーンを動画のハイライトとして抽出する技術を実現している。この成果は、2014年5月に開催される音学シンポジウム2014にて発表する。当初の予定にあった音楽動画中の楽器パート認識における音と映像の複合分析の可能性については検証しきれていない部分があるが、音と映像の複合分析による楽器パートのモデリング手法及び演奏者の識別手法については実装が完了している(③)。当初の計画と順番が前後してはいるが、本識別手法の論文発表に併せて、楽器パートに関する音と映像の複合分析の可能性も検証も行っていく予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由平成25年度の目標である、音楽動画解析における音と映像の複合分析の有効性の検証の一部(楽器パートに関する検証)が完了しておらず、その一部を平成26年度に持ち越す必要があるため。また、研究成果の対外発表がやや遅れているため。
今後の研究の推進方策	今後、音楽動画の内容理解技術としての音と映像の複合分析手法の確立を目指す。そのために、音単体での認識、映像単体での認識、それらを複合したことによる認識を比較する方法についても検討していく。その後、実験を通して新しい音と映像の複合分析手法の実現を目指す。

研究成果
(2件)

すべて 2014 2013

すべて学会発表 (2件)

[学会発表] ラケットスポーツ動画の構造解析に基づく映像要約と鑑賞インタフェースの提案2014
- 著者名/発表者名
  河村俊哉、福里司、平井辰典、森島繁生
- 学会等名
  情報処理学会第76回全国大会
- 発表場所
  東京電機大学東京千住キャンパス
- 年月日
  2014-03-11
[学会発表] ラケットスポーツ動画の構造解析による映像要約手法の提案2013
- 著者名/発表者名
  河村俊哉、福里司、平井辰典、森島繁生
- 学会等名
  情報処理学会第153回GCAD第189回CVIM合同研究会
- 発表場所
  九州大学西新プラザ
- 年月日
  2013-11-29