2014 Fiscal Year Annual Research Report
Project/Area Number |
13J05483
|
Research Institution | Waseda University |
Principal Investigator |
平井 辰典 早稲田大学, 先進理工学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | Audio-Visual Integration / Video indexing / 音楽動画コンテンツ / 鑑賞支援 |
Outline of Annual Research Achievements |
平成26年度には、音楽動画の内容理解技術に関連した研究として、主に以下の二点に取り組んだ。 ①音楽動画中の音、映像の特徴の生成モデルのモデリング手法の検討 ②動画の内容理解結果に基づく検索・鑑賞を支援するためのインタフェースの構築 具体的には、与えられた音楽動画中の特定のイベント(楽器の演奏等)について、音と映像の特徴の生成モデルのモデリングをし、そのモデルと音楽動画との合致度合いを元に音楽動画中のイベントを認識する手法について検討をした(①)。特に、映像の分析に関しては、映像中の人物領域のみを自動で抽出し、その領域に関してのみモデルを構築する手法についても実現した。さらに、与えられた動画に対して、どのシーンがどのような内容であるかという情報(動画の内容理解結果)が与えられた際に、その情報をもとにしてユーザが動画を検索し、さらにそのシーンのみを効率的に鑑賞するための総合的な動画鑑賞支援インタフェースの実装を行った(②)。 ①については、音と映像を複合したモデリングの実現には至っていないが、音及び映像をそれぞれモデル化することができている。そこで今後、これまでのモデル化技術を拡張することで音と映像のクロスモーダル(複合的)なモデリング手法の実現へと繋げていく予定である。また、当該年度については、モデリングそのものの検討で終わってしまったため、音楽動画の内容理解という研究課題の本筋に関する研究を進めていかなければならない。そのための土台となるモデリング技術の約半分について(①)と、音楽動画の内容理解結果の恩恵をユーザが動画鑑賞時に享受できるためのインタフェースの実装について(②)は当該年度にある程度実現したと考えている。この成果についての論文発表も今後、随時行っていく予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音楽動画の内容理解技術としての音と映像の複合分析手法に関しては、まだ確立にいたっていないが、その実現のための要素技術として、音楽動画中の音特徴の生成モデルと映像特徴の生成モデルをモデリングする手法について実現しており、課題の実現に向けてのパーツが揃ってきているところである。 また、動画の内容理解結果を得た後に、ユーザがその恩恵を享受するためのフレームワークとして、動画の検索・鑑賞を支援するためのインタフェースの実装をすでに実現しており、あとは音楽動画の内容理解技術の完成を待つだけという状態にある。このインタフェースについては、平成27年度に取り組む予定の内容であったが、平成26年度のうちに形になったため、その分余裕を持って音と映像の複合分析手法の実現に取り組むことができる。一方で、音と映像の複合分析に関する内容は平成26年度のうちにある程度形にしておく予定であったが、その点に関しては進捗に遅れが出ている。これについては、進捗の順序が入れ替わっただけで、研究課題全体で見るとおおむね順調に進展していると考えている。 本研究課題に関する論文発表については、まだ一部の成果についてのみを行っただけで、全体的には遅れている。それらの成果についても、論文投稿自体はすでに複数回行っており、論文そのものの改善を行いながら発表を目指している段階にあるため、近日中に発表できるとみられ、大きな問題ではないと考えている。 現在までに、最終年度に向けて必要な要素についてある程度揃ったと考えている。最終年度には各研究内容の統合や、成果の発表等に力を入れる必要がある。
|
Strategy for Future Research Activity |
今後、音楽動画の内容理解技術としての音と映像の複合分析手法の確立を目指す。そのために、現在までの研究内容である音単体でのモデル化、映像単体でのモデル化の結果をうまく複合したクロスモーダルな複合的モデリング手法の実現を目指す。具体的には、音の特徴から映像の特徴が生成されるような生成モデルの構築と、その逆の場合の双方向の生成モデルの構築を行っていく。その方法については、これまでの各モダリティにおけるモデル化の拡張として取り組んでいく予定である。 モデル化の手法が実現したら、それを大規模な音楽動画データに対して適用可能なようにスケーラビリティを考慮していく。音楽動画の内容理解技術が実現したら、現在までに実装済みの動画の検索・鑑賞インタフェースに結果を適用する。適用するにあたって、音楽動画に特化した形にインタフェースに修正を加える必要がある。 これまでに各要素研究を別々に行ってきたため、それらを統合するにあたって予期せぬ問題が生じ、それぞれのモジュールに修正を加える必要が生じることも考えられるが、それについては、研究全体を適宜俯瞰的に眺めながら、最小限の修正で大きな成果が得られるように取り組んでいくつもりである。
|
Research Products
(8 results)