研究課題/領域番号 |
21H03535
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61060:感性情報学関連
|
研究機関 | 国立研究開発法人情報通信研究機構 |
研究代表者 |
西田 知史 国立研究開発法人情報通信研究機構, 未来ICT研究所脳情報通信融合研究センター, 主任研究員 (90751933)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2023年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2022年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
2021年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
|
キーワード | マルチモーダル認識 / 人工知能 / 深層学習 / 脳 / fMRI / 視覚 / 聴覚 / 言語 / 音声 |
研究開始時の研究の概要 |
昨今のAI技術の発展は著しいが、脳の方が得意とする認識問題もまだ多く存在する。複数モダリティ(視覚、聴覚、言語)の情報統合が必要なパターン認識(マルチモーダル認識)もその一つに挙げられる。そこで本研究では、脳計測データからモデル化した脳情報空間を介してマルチモーダル情報を統合し、パターン認識へ利用する脳融合型AIの技術を開発する。これにより、既存AIにおけるマルチモーダル認識性能の大幅な向上を試みる。この技術が実現すれば、マルチモーダル情報があふれる実世界においてAIの適用範囲がさらに広まり、AIの社会実装が促進される。
|
研究実績の概要 |
マルチモーダル認識に利用可能な脳情報モデルを作成するため、視覚、聴覚、言語の異なるモダリティ入力に対する脳活動を計測するための機能的磁気共鳴画像(fMRI)実験を実施した。今年度は映像刺激を使用した実験を追加で実施し、新たに64名分の脳活動データを取得した。さらに、視覚、聴覚、言語のそれぞれを扱う深層学習モデル(VGG-16、SoundNet、BERT)を基に、マルチモダリティ入力から脳活動を予測するモデルを構築し、予測した脳活動を介してマルチモーダル認識問題を解くことに成功した。特に、映像と言語のモダリティをまたいで認知内容(印象や選好など)を推定するモデルを作成し、脳活動予測を介さない(脳情報を利用しない)場合に比べて、高い推定性能を確認できた。また同時に、個々人の脳活動から学習した予測モデルを利用することで、入力に紐付いた個々人の認知内容の個人差を推定することに成功した。さらに、脳活動予測を媒介することで、深層学習モデルのマルチモーダル認識パターンが脳に近づくことが分かり、脳らしく振る舞うマルチモーダル認識モデルの実現に近づいた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
fMRI実験で予定より大量の脳活動データを収集できており、学術的価値の高いデータセットを順調に構築できている。これまでの映像・音声に加え言語を含むマルチモーダル認識問題においても、開発技術が既存の深層ニューラルネットの性能を向上させるとともに、脳らしい振る舞いをもたらすことが確認できた。以上のことから、研究は順調に進展しているといえる。
|
今後の研究の推進方策 |
マルチモーダル認識を行うため、既存の深層ニューラルネットと脳情報の融合を行ってるが、融合のための現行手法はシンプルであり、今後は非線形モデルの適用など、その手法の高度化を目指して研究を進める予定である。
|