2013 Fiscal Year Annual Research Report

音と映像の複合分析による動画コンテンツ理解の研究

Research Project

Project/Area Number	13J05483
Research Institution	Waseda University
Principal Investigator	平井辰典早稲田大学, 理工学研究科, 特別研究員DC1
Keywords	Audio-Visual Integration / Video indexing / 音楽動画コンテンツ / 鑑賞支援
Research Abstract	平成25年度には、音楽動画中の内容理解技術に関して、主に以下の三点について取り組んだ。 ①歌手の歌唱に関する音と映像の関係性に関する調査 ②歌手の歌唱に関して、音と映像のそれぞれのモーダルの認識技術とそれらの組み合わせによってどれだけの精度向上が期待できるかの検証 ③音と映像の複合分析による楽器パートのモデリング及び演奏者の識別手法の検討具体的には、音楽動画中で歌手が歌っている歌唱シーン(音楽動画において、音楽中で歌声が聞こえていて、なおかつ映像中で歌手が対応する歌を歌っているシーン)を認識したいというときに、顔認識(映像分析)技術のみでどれくらいの精度でそれが達成できるか、歌声認識(音分析)によってどれだけの精度で達成できるか、またそれらの組み合わせによってどのような認識結果を出すことができるかなどを検証してきた(①、②)。さらに、これを応用して音楽動画中の歌唱シーンを認識するための一手法を提案した。これにより、音楽動画中の歌唱シーンを動画のハイライトとして抽出する技術を実現している。この成果は、2014年5月に開催される音学シンポジウム2014にて発表する。当初の予定にあった音楽動画中の楽器パート認識における音と映像の複合分析の可能性については検証しきれていない部分があるが、音と映像の複合分析による楽器パートのモデリング手法及び演奏者の識別手法については実装が完了している(③)。当初の計画と順番が前後してはいるが、本識別手法の論文発表に併せて、楽器パートに関する音と映像の複合分析の可能性も検証も行っていく予定である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 平成25年度の目標である、音楽動画解析における音と映像の複合分析の有効性の検証の一部(楽器パートに関する検証)が完了しておらず、その一部を平成26年度に持ち越す必要があるため。また、研究成果の対外発表がやや遅れているため。
Strategy for Future Research Activity	今後、音楽動画の内容理解技術としての音と映像の複合分析手法の確立を目指す。そのために、音単体での認識、映像単体での認識、それらを複合したことによる認識を比較する方法についても検討していく。その後、実験を通して新しい音と映像の複合分析手法の実現を目指す。

Research Products

(2 results)

All Presentation (2 results)

[Presentation] ラケットスポーツ動画の構造解析に基づく映像要約と鑑賞インタフェースの提案2014
- Author(s)
  河村俊哉、福里司、平井辰典、森島繁生
- Organizer
  情報処理学会第76回全国大会
- Place of Presentation
  東京電機大学東京千住キャンパス
- Year and Date
  2014-03-11
[Presentation] ラケットスポーツ動画の構造解析による映像要約手法の提案2013
- Author(s)
  河村俊哉、福里司、平井辰典、森島繁生
- Organizer
  情報処理学会第153回GCAD第189回CVIM合同研究会
- Place of Presentation
  九州大学西新プラザ
- Year and Date
  2013-11-29