Project/Area Number |
21H03535
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61060:Kansei informatics-related
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
Nishida Satoshi 国立研究開発法人情報通信研究機構, 未来ICT研究所脳情報通信融合研究センター, 主任研究員 (90751933)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2023: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
Fiscal Year 2022: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Fiscal Year 2021: ¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
|
Keywords | マルチモーダル認識 / 視覚 / 聴覚 / 言語 / 脳融合 / 脳情報空間 / AI / fMRI / 脳 / 深層学習 / Masked autoencoder / 人工知能 / 音声 |
Outline of Research at the Start |
昨今のAI技術の発展は著しいが、脳の方が得意とする認識問題もまだ多く存在する。複数モダリティ(視覚、聴覚、言語)の情報統合が必要なパターン認識(マルチモーダル認識)もその一つに挙げられる。そこで本研究では、脳計測データからモデル化した脳情報空間を介してマルチモーダル情報を統合し、パターン認識へ利用する脳融合型AIの技術を開発する。これにより、既存AIにおけるマルチモーダル認識性能の大幅な向上を試みる。この技術が実現すれば、マルチモーダル情報があふれる実世界においてAIの適用範囲がさらに広まり、AIの社会実装が促進される。
|
Outline of Final Research Achievements |
AI technology has made remarkable progress in recent years. However, it is a widely held view among researchers that developing AI which mimics or utilizes brain processes is crucial. In this study, we expanded upon the brain integration technique initially developed by the principal investigator. We devised a method to integrate the internal representations of AI corresponding to different modalities (visual, auditory, and linguistic) with brain information. This integration uses a mathematical model based on brain measurement data for recognition purposes. We have demonstrated that this method enhances the AI’s performance in estimating various labels associated with audiovisual and verbal inputs. Improvements were also noted in recognition tasks that involve integrated audiovisual inputs, indicating that the developed method is effective for multimodal recognition.
|
Academic Significance and Societal Importance of the Research Achievements |
最新鋭のAI技術では、視覚情報を扱う大規模言語モデルのように、マルチモーダル認識を得意とするモデルが登場するようになってきた。ただし、脳はそれらと比べても極めてマルチモーダル認識を得意とする認識システムであり、マルチモーダル認識に脳情報を活用する手法はこれ以降も有効に利用されると期待する。特に、人間の複雑な認知が関わるような認識問題では、脳情報の利用が最適な解法となりうる。したがって、人間の認知を理解し、それに沿ってAIが振る舞うような、人間中心のAI社会を実現する基盤技術として、本研究で開発した脳情報を利用したマルチモーダル認識のための手法が大いに活用されると期待する。
|