相補的な音楽と画像の構成要素間における共起性を考慮した解釈可能な検索・変換の実現
Project/Area Number |
22K18017
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
中塚 貴之 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80909698)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
|
Keywords | 画像処理 / 音楽情報処理 / クロスモーダル / 機械学習 |
Outline of Research at the Start |
音楽や画像といったコンテンツを対象とした、機械学習技術に基づく既存のクロスモーダル技術は、機械学習におけるブラックボックス問題のために、検索・変換といった操作の結果に至るまでの過程について人間が解釈することは困難であった。そこで本研究では、音楽と画像におけるコンテンツデータの差異を超えて、相補的な音楽と画像の検索・変換といった操作を人間が解釈できるクロスモーダル技術の研究開発を目指す。
|
Outline of Annual Research Achievements |
本年度は、音楽と画像におけるコンテンツデータの差異を超えて、相補的な音楽と画像を双方向に検索可能なクロスモーダル技術の研究開発を実施した。従来の研究における音楽と画像クロスモーダル検索技術の多くは、感情タグやムードタグいったメタデータを利用していた。しかしながら、そのようなメタデータが付与されている音楽と画像のデータは限られており、また、そのようなメタデータを含むデータセットを構築することは多くの労力を要する。この問題に対するアプローチとして、メタデータを利用せず、音楽と画像のコンテンツに基づく検索手法を研究開発した。楽曲とその代表画像(ジャケット画像、サムネイル画像など)といったペアデータに着目し、それらの特徴ベクトルが近くに配置されるような音楽と画像が共有する特徴量空間を構築した。この音楽と画像が共有する特徴量空間を構築する際、学習過程の特徴ベクトルをメモリ上に保存しておき、保存した特徴ベクトルを再度学習に利用する新しいメモリ機構を開発した。実験の結果、従来のコンテンツに基づく検索手法およびメモリ機構と比較して、正しいペアの音楽と画像を検索できることを示した。また、この音楽と画像が共有する特徴量空間では、性質の似たコンテンツ(音楽ジャンルなど)の特徴ベクトルが配置されていることを可視化した。そのためこの技術を用いることで、例えばポピュラー音楽の音楽音響信号をクエリとして、そのクエリにあった画像をメタデータを使わずに検索することが可能となった。これらの成果をまとめた論文がコンピュータビジョンの主要な国際会議であるIEEE/CVF WACV 2023に採択され、2023年1月に口頭、及びポスターで発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音楽とその代表画像(ジャケット画像、サムネイル画像など)のペアデータに着目し、それらの特徴ベクトルが近くに配置されるような音楽と画像が共有する特徴量空間を構築することで、音楽と画像におけるコンテンツデータの差異を、特徴ベクトルの「距離」といった人間が解釈可能な表現で説明することが可能になった。この音楽と画像が共有する特徴量空間を活用した、相補的な音楽と画像を双方向に検索可能なクロスモーダル技術は、コンピュータビジョン分野の主要な国際会議の論文として採択されており、本課題の研究成果を外部にアウトプットすることができている。これらの理由から、現在までの進捗状況は概ね順調に進展していると言える。
|
Strategy for Future Research Activity |
本研究計画の課題である「相補的な音楽と画像の解釈可能な検索・変換」を実現する上で、テキストをはじめとする言語情報を取り入れることは重要な要素となる。これは、音楽と画像の検索・変換の過程や結果に言語情報を介することで、音楽と画像そのものを言語化する狙いがある。そこで次年度は、初年度に構築した音楽とその代表画像(ジャケット画像、サムネイル画像など)のペアデータからなるデータセットを拡張し、言語情報を組み合わせることで、検索・変換の過程や結果についてより人間が解釈しやすくなるような技術の研究開発に着手する。
|
Report
(1 results)
Research Products
(2 results)