2014 年度実績報告書

音と映像の複合分析による動画コンテンツ理解の研究

研究課題

研究課題/領域番号	13J05483
研究機関	早稲田大学
研究代表者	平井辰典早稲田大学, 先進理工学研究科, 特別研究員(DC1)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	Audio-Visual Integration / Video indexing / 音楽動画コンテンツ / 鑑賞支援
研究実績の概要	平成26年度には、音楽動画の内容理解技術に関連した研究として、主に以下の二点に取り組んだ。 ①音楽動画中の音、映像の特徴の生成モデルのモデリング手法の検討 ②動画の内容理解結果に基づく検索・鑑賞を支援するためのインタフェースの構築具体的には、与えられた音楽動画中の特定のイベント（楽器の演奏等）について、音と映像の特徴の生成モデルのモデリングをし、そのモデルと音楽動画との合致度合いを元に音楽動画中のイベントを認識する手法について検討をした（①）。特に、映像の分析に関しては、映像中の人物領域のみを自動で抽出し、その領域に関してのみモデルを構築する手法についても実現した。さらに、与えられた動画に対して、どのシーンがどのような内容であるかという情報（動画の内容理解結果）が与えられた際に、その情報をもとにしてユーザが動画を検索し、さらにそのシーンのみを効率的に鑑賞するための総合的な動画鑑賞支援インタフェースの実装を行った（②）。 ①については、音と映像を複合したモデリングの実現には至っていないが、音及び映像をそれぞれモデル化することができている。そこで今後、これまでのモデル化技術を拡張することで音と映像のクロスモーダル（複合的）なモデリング手法の実現へと繋げていく予定である。また、当該年度については、モデリングそのものの検討で終わってしまったため、音楽動画の内容理解という研究課題の本筋に関する研究を進めていかなければならない。そのための土台となるモデリング技術の約半分について（①）と、音楽動画の内容理解結果の恩恵をユーザが動画鑑賞時に享受できるためのインタフェースの実装について（②）は当該年度にある程度実現したと考えている。この成果についての論文発表も今後、随時行っていく予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由音楽動画の内容理解技術としての音と映像の複合分析手法に関しては、まだ確立にいたっていないが、その実現のための要素技術として、音楽動画中の音特徴の生成モデルと映像特徴の生成モデルをモデリングする手法について実現しており、課題の実現に向けてのパーツが揃ってきているところである。また、動画の内容理解結果を得た後に、ユーザがその恩恵を享受するためのフレームワークとして、動画の検索・鑑賞を支援するためのインタフェースの実装をすでに実現しており、あとは音楽動画の内容理解技術の完成を待つだけという状態にある。このインタフェースについては、平成27年度に取り組む予定の内容であったが、平成26年度のうちに形になったため、その分余裕を持って音と映像の複合分析手法の実現に取り組むことができる。一方で、音と映像の複合分析に関する内容は平成26年度のうちにある程度形にしておく予定であったが、その点に関しては進捗に遅れが出ている。これについては、進捗の順序が入れ替わっただけで、研究課題全体で見るとおおむね順調に進展していると考えている。本研究課題に関する論文発表については、まだ一部の成果についてのみを行っただけで、全体的には遅れている。それらの成果についても、論文投稿自体はすでに複数回行っており、論文そのものの改善を行いながら発表を目指している段階にあるため、近日中に発表できるとみられ、大きな問題ではないと考えている。現在までに、最終年度に向けて必要な要素についてある程度揃ったと考えている。最終年度には各研究内容の統合や、成果の発表等に力を入れる必要がある。
今後の研究の推進方策	今後、音楽動画の内容理解技術としての音と映像の複合分析手法の確立を目指す。そのために、現在までの研究内容である音単体でのモデル化、映像単体でのモデル化の結果をうまく複合したクロスモーダルな複合的モデリング手法の実現を目指す。具体的には、音の特徴から映像の特徴が生成されるような生成モデルの構築と、その逆の場合の双方向の生成モデルの構築を行っていく。その方法については、これまでの各モダリティにおけるモデル化の拡張として取り組んでいく予定である。モデル化の手法が実現したら、それを大規模な音楽動画データに対して適用可能なようにスケーラビリティを考慮していく。音楽動画の内容理解技術が実現したら、現在までに実装済みの動画の検索・鑑賞インタフェースに結果を適用する。適用するにあたって、音楽動画に特化した形にインタフェースに修正を加える必要がある。これまでに各要素研究を別々に行ってきたため、それらを統合するにあたって予期せぬ問題が生じ、それぞれのモジュールに修正を加える必要が生じることも考えられるが、それについては、研究全体を適宜俯瞰的に眺めながら、最小限の修正で大きな成果が得られるように取り組んでいくつもりである。

研究成果
(8件)

すべて 2015 2014

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件)

[雑誌論文] ラリーシーンに着目した映像自動要約によるラケットスポーツ動画鑑賞システム2015
- 著者名/発表者名
  河村俊哉、福里司、平井辰典、森島繁生
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 56 ページ: 1028 - 1038
- 査読あり
[学会発表] VRMixer: 動画セグメンテーションによる動画コンテンツと現実世界の融合2015
- 著者名/発表者名
  平井辰典，中村聡史，湯村翼，森島繁生
- 学会等名
  情報処理学会シンポジウム　インタラクション2015
- 発表場所
  日本科学未来館/東京国際交流館（東京都江東区）
- 年月日
  2015-03-05 – 2015-03-07
[学会発表] Affective Music Recommendation System Based on the Mood of Input Video2015
- 著者名/発表者名
  Shoto Sasaki，Tatsunori Hirai，Hayato Ohya，Shigeo Morishima
- 学会等名
  The 21st International Conference on Multimedia Modeling (MMM 2015)
- 発表場所
  University of Technology Sydney, Sydney, Australia
- 年月日
  2015-01-05 – 2015-01-07
[学会発表] VRMixer: Mixing Video and Real World with Video Segmentation2014
- 著者名/発表者名
  Tatsunori Hirai，Satoshi Nakamura，Tsubasa Yumura，Shigeo Morishima
- 学会等名
  11th Advances in Computer Entertainment Technology Conference (ACE 2014)
- 発表場所
  Funchal, Madeira
- 年月日
  2014-11-11 – 2014-11-14
[学会発表] 歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出2014
- 著者名/発表者名
  平井辰典，中野倫靖，後藤真孝，森島繁生
- 学会等名
  OngaCRESTシンポジウム2014
- 発表場所
  明治大学中野キャンパス（東京都中野区）
- 年月日
  2014-08-23 – 2014-08-23
[学会発表] VRMixer: 動画と現実の融合による新たなコンテンツの生成2014
- 著者名/発表者名
  平井辰典，中村聡史，森島繁生，湯村翼
- 学会等名
  OngaCRESTシンポジウム2014
- 発表場所
  明治大学中野キャンパス（東京都中野区）
- 年月日
  2014-08-23 – 2014-08-23
[学会発表] Efficient Video Viewing System for Racquet Sports with Automatic Summarization Focusing on Rally Scenes2014
- 著者名/発表者名
  Shunya Kawamura，Tsukasa Fukusato，Tatsunori Hirai，Shigeo Morishima
- 学会等名
  ACM SIGGRAPH 2014
- 発表場所
  Vancouver Convenion Center, Vancouver, Canada
- 年月日
  2014-08-10 – 2014-08-14
[学会発表] 歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出手法の検討2014
- 著者名/発表者名
  平井辰典，中野倫靖，後藤真孝，森島繁生
- 学会等名
  音学シンポジウム2014
- 発表場所
  日本大学文理学部百周年記念館（東京都世田谷区）
- 年月日
  2014-05-24 – 2014-05-25

2014 年度 実績報告書

音と映像の複合分析による動画コンテンツ理解の研究

研究代表者

平井 辰典 早稲田大学, 先進理工学研究科, 特別研究員(DC1)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] ラリーシーンに着目した映像自動要約によるラケットスポーツ動画鑑賞システム2015

著者名/発表者名

雑誌名

[学会発表] VRMixer: 動画セグメンテーションによる動画コンテンツと現実世界の融合2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Affective Music Recommendation System Based on the Mood of Input Video2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] VRMixer: Mixing Video and Real World with Video Segmentation2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] VRMixer: 動画と現実の融合による新たなコンテンツの生成2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Efficient Video Viewing System for Racquet Sports with Automatic Summarization Focusing on Rally Scenes2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 歌手映像と歌声の解析に基づく音楽動画中の歌唱シーン検出手法の検討2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実績報告書

平井辰典早稲田大学, 先進理工学研究科, 特別研究員(DC1)