• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

異なるモダリティ間の埋め込み空間を考慮したマルチモーダル構造適応型深層学習の研究

Research Project

Project/Area Number 24K20861
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 61040:Soft computing-related
Research InstitutionHiroshima City University

Principal Investigator

鎌田 真  広島市立大学, 情報科学研究科, 准教授 (30845178)

Project Period (FY) 2024-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2026: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2024: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords深層学習 / マルチモーダル / Transformer
Outline of Research at the Start

本研究では,マルチモーダル深層学習において,画像やテキスト等の異なるモダリティの合成・融合方法や共通の埋め込み空間への写像手法について探求する。異なるモダリティを意味概念が同一である共通の特徴空間で表現することで,入力に欠損があった場合でも,別のモダリティから得られた合成ベクトルに基づいて補間することが可能であり,生物が多様な情報を統合して処理するような高次の情報検索や推論を実現する。

Outline of Annual Research Achievements

単一のモダリティだけでなく,映像,音声,テキスト等の複数のモダリティを扱うマルチモーダル深層学習がある。しかしながら,現在のマルチモーダル深層学習では,複数のモダリティを比較的単純な方法で合成し,出力するのみであり,生物(人間)における高次の情報処理・推論機能のように,5感から入る複数モダリティを互いの影響度に基づいて関連付け,他の事前知識を含めて適切に合成・融合・変換を行い,最終的な判定を行う仕組みは見られない。このような高次の情報処理を実現するため,本研究では,TransformerにおけるAttentionやCLIPの対照学習の仕組みを改良し,異なるモダリティの合成方法や埋め込み空間への写像手法について探求する。異なるモダリティを意味概念が同一である特徴空間で表現できれば,入力に欠損があった場合でも,別のモダリティからの情報補間が可能であり,高次の情報検索や推論を実現できる。
2024年度では,音声と動画を含む顔感情認識のためのマルチモーダルデータセットであるRAVDESSデータセットを用いた感情認識モデルを構築した。ここでは,顔表情画像に加えて,人間の表情筋の基本的な動作を符号化したAction Unit (AU)を深層学習モデルであるVision Transformer (ViT)に与え,Attention機構により両者を統合し,これらに含まれる重要な関係性を学習するモデルを構築した。実験の結果,画像のみを扱う従来のViTに比べて,AUに含まれる顔表情の明示的な特徴を加えた提案手法は高い分類精度を示した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初の計画通り,Transformerを用いたマルチモーダル深層学習モデルの構築を行った。また,学会での口頭発表を行った。上記のことから,おおむね順調に進展していると言える。

Strategy for Future Research Activity

2024年度では,RAVDESSの静止画像を用いたが,今後は,動画データに含まれる動的な表情変化から,感情を推定するモデルを構築する。また,画像に含まれる視覚情報だけでなく,音声情報を統合して予測を行うマルチモーダル深層学習を構築する。
さらに,TransformerにおけるAttention機構やCLIPの対照学習の仕組みを改良し,異なるモダリティの合成方法や埋め込み空間への写像手法について探求する。異なるモダリティを意味概念が同一である特徴空間で表現できれば,入力に欠損があった場合でも,別のモダリティからの情報補間が可能であり,高次の情報検索や推論を実現する手法について研究を行う。

Report

(1 results)
  • 2024 Research-status Report
  • Research Products

    (3 results)

All 2025 2024

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Teacher-Student構造適応型深層学習によるセグメンテーションと送電鉄塔外観点検画像劣化診断への適用2025

    • Author(s)
      市村匠,鎌田真,山口亮,田中耕一
    • Journal Title

      計測自動制御学会論文集

      Volume: Vol.61, No.5 Pages: 267-277

    • Related Report
      2024 Research-status Report
    • Peer Reviewed
  • [Presentation] 顔表情画像とAction Unitを用いたVision TransformerによるRAVDESSデータセットの感情分類2025

    • Author(s)
      鎌田真,市村匠
    • Organizer
      計測自動制御学会第52回知能システムシンポジウム,pp.112-117
    • Related Report
      2024 Research-status Report
  • [Presentation] Multimodal Adaptive Structural Deep Belief Network for Emotion Recognition on RAVDESS Dataset2024

    • Author(s)
      Shin Kamada, Takumi Ichimura
    • Organizer
      Proc. of 2024 16th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.292-298
    • Related Report
      2024 Research-status Report
    • Int'l Joint Research

URL: 

Published: 2024-04-05   Modified: 2025-12-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi