研究課題
マルチモーダル認識に利用可能な脳情報モデルを作成するため、視覚、聴覚、言語の異なるモダリティ入力に対する脳活動を計測するための機能的磁気共鳴画像(fMRI)実験を実施した。今年度は映像刺激を使用した実験を追加で実施し、新たに64名分の脳活動データを取得した。さらに、視覚、聴覚、言語のそれぞれを扱う深層学習モデル(VGG-16、SoundNet、BERT)を基に、マルチモダリティ入力から脳活動を予測するモデルを構築し、予測した脳活動を介してマルチモーダル認識問題を解くことに成功した。特に、映像と言語のモダリティをまたいで認知内容(印象や選好など)を推定するモデルを作成し、脳活動予測を介さない(脳情報を利用しない)場合に比べて、高い推定性能を確認できた。また同時に、個々人の脳活動から学習した予測モデルを利用することで、入力に紐付いた個々人の認知内容の個人差を推定することに成功した。さらに、脳活動予測を媒介することで、深層学習モデルのマルチモーダル認識パターンが脳に近づくことが分かり、脳らしく振る舞うマルチモーダル認識モデルの実現に近づいた。
2: おおむね順調に進展している
fMRI実験で予定より大量の脳活動データを収集できており、学術的価値の高いデータセットを順調に構築できている。これまでの映像・音声に加え言語を含むマルチモーダル認識問題においても、開発技術が既存の深層ニューラルネットの性能を向上させるとともに、脳らしい振る舞いをもたらすことが確認できた。以上のことから、研究は順調に進展しているといえる。
マルチモーダル認識を行うため、既存の深層ニューラルネットと脳情報の融合を行ってるが、融合のための現行手法はシンプルであり、今後は非線形モデルの適用など、その手法の高度化を目指して研究を進める予定である。
すべて 2023 2022
すべて 雑誌論文 (6件) (うち国際共著 1件、 査読あり 3件、 オープンアクセス 3件) 学会発表 (18件) (うち国際学会 4件、 招待講演 4件) 産業財産権 (1件)
bioRxiv
巻: - ページ: -
10.1101/2023.02.07.527403
Schizophrenia Bulletin
巻: 49 ページ: 498~506
10.1093/schbul/sbac157
IEEE Transactions on Systems, Man, and Cybernetics: Systems
巻: 52 ページ: 4057~4068
10.1109/TSMC.2021.3074069
Findings of the Association for Computational Linguistics: AACL-IJCNLP 2022
巻: - ページ: 405~410
情報通信研究機構研究報告
巻: 68 ページ: 11~19
10.1101/2022.05.16.492029