研究課題/領域番号 |
13J05483
|
研究機関 | 早稲田大学 |
研究代表者 |
平井 辰典 早稲田大学, 理工学研究科, 特別研究員DC1
|
キーワード | Audio-Visual Integration / Video indexing / 音楽動画コンテンツ / 鑑賞支援 |
研究概要 |
平成25年度には、音楽動画中の内容理解技術に関して、主に以下の三点について取り組んだ。 ①歌手の歌唱に関する音と映像の関係性に関する調査 ②歌手の歌唱に関して、音と映像のそれぞれのモーダルの認識技術とそれらの組み合わせによってどれだけの精度向上が期待できるかの検証 ③音と映像の複合分析による楽器パートのモデリング及び演奏者の識別手法の検討 具体的には、音楽動画中で歌手が歌っている歌唱シーン(音楽動画において、音楽中で歌声が聞こえていて、なおかつ映像中で歌手が対応する歌を歌っているシーン)を認識したいというときに、顔認識(映像分析)技術のみでどれくらいの精度でそれが達成できるか、歌声認識(音分析)によってどれだけの精度で達成できるか、またそれらの組み合わせによってどのような認識結果を出すことができるかなどを検証してきた(①、②)。さらに、これを応用して音楽動画中の歌唱シーンを認識するための一手法を提案した。これにより、音楽動画中の歌唱シーンを動画のハイライトとして抽出する技術を実現している。この成果は、2014年5月に開催される音学シンポジウム2014にて発表する。 当初の予定にあった音楽動画中の楽器パート認識における音と映像の複合分析の可能性については検証しきれていない部分があるが、音と映像の複合分析による楽器パートのモデリング手法及び演奏者の識別手法については実装が完了している(③)。当初の計画と順番が前後してはいるが、本識別手法の論文発表に併せて、楽器パートに関する音と映像の複合分析の可能性も検証も行っていく予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
平成25年度の目標である、音楽動画解析における音と映像の複合分析の有効性の検証の一部(楽器パートに関する検証)が完了しておらず、その一部を平成26年度に持ち越す必要があるため。また、研究成果の対外発表がやや遅れているため。
|
今後の研究の推進方策 |
今後、音楽動画の内容理解技術としての音と映像の複合分析手法の確立を目指す。そのために、音単体での認識、映像単体での認識、それらを複合したことによる認識を比較する方法についても検討していく。その後、実験を通して新しい音と映像の複合分析手法の実現を目指す。
|