相補的な音楽と画像の構成要素間における共起性を考慮した解釈可能な検索・変換の実現

Research Project

Project/Area Number	22K18017
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 62040:Entertainment and game informatics-related
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	中塚貴之国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80909698)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2022)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2022: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Keywords	画像処理 / 音楽情報処理 / クロスモーダル / 機械学習
Outline of Research at the Start	音楽や画像といったコンテンツを対象とした、機械学習技術に基づく既存のクロスモーダル技術は、機械学習におけるブラックボックス問題のために、検索・変換といった操作の結果に至るまでの過程について人間が解釈することは困難であった。そこで本研究では、音楽と画像におけるコンテンツデータの差異を超えて、相補的な音楽と画像の検索・変換といった操作を人間が解釈できるクロスモーダル技術の研究開発を目指す。
Outline of Annual Research Achievements	本年度は、音楽と画像におけるコンテンツデータの差異を超えて、相補的な音楽と画像を双方向に検索可能なクロスモーダル技術の研究開発を実施した。従来の研究における音楽と画像クロスモーダル検索技術の多くは、感情タグやムードタグいったメタデータを利用していた。しかしながら、そのようなメタデータが付与されている音楽と画像のデータは限られており、また、そのようなメタデータを含むデータセットを構築することは多くの労力を要する。この問題に対するアプローチとして、メタデータを利用せず、音楽と画像のコンテンツに基づく検索手法を研究開発した。楽曲とその代表画像（ジャケット画像、サムネイル画像など）といったペアデータに着目し、それらの特徴ベクトルが近くに配置されるような音楽と画像が共有する特徴量空間を構築した。この音楽と画像が共有する特徴量空間を構築する際、学習過程の特徴ベクトルをメモリ上に保存しておき、保存した特徴ベクトルを再度学習に利用する新しいメモリ機構を開発した。実験の結果、従来のコンテンツに基づく検索手法およびメモリ機構と比較して、正しいペアの音楽と画像を検索できることを示した。また、この音楽と画像が共有する特徴量空間では、性質の似たコンテンツ（音楽ジャンルなど）の特徴ベクトルが配置されていることを可視化した。そのためこの技術を用いることで、例えばポピュラー音楽の音楽音響信号をクエリとして、そのクエリにあった画像をメタデータを使わずに検索することが可能となった。これらの成果をまとめた論文がコンピュータビジョンの主要な国際会議であるIEEE/CVF WACV 2023に採択され、２０２３年１月に口頭、及びポスターで発表した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 音楽とその代表画像（ジャケット画像、サムネイル画像など）のペアデータに着目し、それらの特徴ベクトルが近くに配置されるような音楽と画像が共有する特徴量空間を構築することで、音楽と画像におけるコンテンツデータの差異を、特徴ベクトルの「距離」といった人間が解釈可能な表現で説明することが可能になった。この音楽と画像が共有する特徴量空間を活用した、相補的な音楽と画像を双方向に検索可能なクロスモーダル技術は、コンピュータビジョン分野の主要な国際会議の論文として採択されており、本課題の研究成果を外部にアウトプットすることができている。これらの理由から、現在までの進捗状況は概ね順調に進展していると言える。
Strategy for Future Research Activity	本研究計画の課題である「相補的な音楽と画像の解釈可能な検索・変換」を実現する上で、テキストをはじめとする言語情報を取り入れることは重要な要素となる。これは、音楽と画像の検索・変換の過程や結果に言語情報を介することで、音楽と画像そのものを言語化する狙いがある。そこで次年度は、初年度に構築した音楽とその代表画像（ジャケット画像、サムネイル画像など）のペアデータからなるデータセットを拡張し、言語情報を組み合わせることで、検索・変換の過程や結果についてより人間が解釈しやすくなるような技術の研究開発に着手する。

Report

(1 results)

2022 Research-status Report

Research Products

(2 results)

All 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Content-Based Music-Image Retrieval Using Self- and Cross-Modal Feature Embedding Memory2023
- Author(s)
  Nakatsuka Takayuki、Hamasaki Masahiro、Goto Masataka
- Journal Title
  
  Proceedings of the 2023 IEEE/CVF Winter Conference on Applications of Computer Vision
  
  Volume: 1 Pages: 2174-2184
- DOI
  10.1109/wacv56688.2023.00221
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Presentation] Content-Based Music-Image Retrieval Using Self- and Cross-Modal Feature Embedding Memory2023
- Author(s)
  Takayuki Nakatsuka
- Organizer
  IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2023
- Related Report
  2022 Research-status Report
- Int'l Joint Research

相補的な音楽と画像の構成要素間における共起性を考慮した解釈可能な検索・変換の実現

Principal Investigator

中塚 貴之 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80909698)

¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Content-Based Music-Image Retrieval Using Self- and Cross-Modal Feature Embedding Memory2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] Content-Based Music-Image Retrieval Using Self- and Cross-Modal Feature Embedding Memory2023

Author(s)

Organizer

Related Report

中塚貴之国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80909698)