| Project/Area Number |
24K20861
|
| Research Category |
Grant-in-Aid for Early-Career Scientists
|
| Allocation Type | Multi-year Fund |
| Review Section |
Basic Section 61040:Soft computing-related
|
| Research Institution | Hiroshima City University |
Principal Investigator |
鎌田 真 広島市立大学, 情報科学研究科, 准教授 (30845178)
|
| Project Period (FY) |
2024-04-01 – 2027-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2026: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2024: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
| Keywords | 深層学習 / マルチモーダル / Transformer |
| Outline of Research at the Start |
本研究では,マルチモーダル深層学習において,画像やテキスト等の異なるモダリティの合成・融合方法や共通の埋め込み空間への写像手法について探求する。異なるモダリティを意味概念が同一である共通の特徴空間で表現することで,入力に欠損があった場合でも,別のモダリティから得られた合成ベクトルに基づいて補間することが可能であり,生物が多様な情報を統合して処理するような高次の情報検索や推論を実現する。
|
| Outline of Annual Research Achievements |
単一のモダリティだけでなく,映像,音声,テキスト等の複数のモダリティを扱うマルチモーダル深層学習がある。しかしながら,現在のマルチモーダル深層学習では,複数のモダリティを比較的単純な方法で合成し,出力するのみであり,生物(人間)における高次の情報処理・推論機能のように,5感から入る複数モダリティを互いの影響度に基づいて関連付け,他の事前知識を含めて適切に合成・融合・変換を行い,最終的な判定を行う仕組みは見られない。このような高次の情報処理を実現するため,本研究では,TransformerにおけるAttentionやCLIPの対照学習の仕組みを改良し,異なるモダリティの合成方法や埋め込み空間への写像手法について探求する。異なるモダリティを意味概念が同一である特徴空間で表現できれば,入力に欠損があった場合でも,別のモダリティからの情報補間が可能であり,高次の情報検索や推論を実現できる。 2024年度では,音声と動画を含む顔感情認識のためのマルチモーダルデータセットであるRAVDESSデータセットを用いた感情認識モデルを構築した。ここでは,顔表情画像に加えて,人間の表情筋の基本的な動作を符号化したAction Unit (AU)を深層学習モデルであるVision Transformer (ViT)に与え,Attention機構により両者を統合し,これらに含まれる重要な関係性を学習するモデルを構築した。実験の結果,画像のみを扱う従来のViTに比べて,AUに含まれる顔表情の明示的な特徴を加えた提案手法は高い分類精度を示した。
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り,Transformerを用いたマルチモーダル深層学習モデルの構築を行った。また,学会での口頭発表を行った。上記のことから,おおむね順調に進展していると言える。
|
| Strategy for Future Research Activity |
2024年度では,RAVDESSの静止画像を用いたが,今後は,動画データに含まれる動的な表情変化から,感情を推定するモデルを構築する。また,画像に含まれる視覚情報だけでなく,音声情報を統合して予測を行うマルチモーダル深層学習を構築する。 さらに,TransformerにおけるAttention機構やCLIPの対照学習の仕組みを改良し,異なるモダリティの合成方法や埋め込み空間への写像手法について探求する。異なるモダリティを意味概念が同一である特徴空間で表現できれば,入力に欠損があった場合でも,別のモダリティからの情報補間が可能であり,高次の情報検索や推論を実現する手法について研究を行う。
|