ヒト大脳皮質における階層的視覚情報処理の情報表現力による定量的理解
Project/Area Number |
23K11167
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Osaka University |
Principal Investigator |
佐々木 耕太 大阪大学, 大学院生命機能研究科, 特任講師(常勤) (40467501)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 階層的知覚情報処理 / データ駆動型科学 / 機械学習 / 人工ニューラルネットワーク / 人工知能 / スケーリング則 / エンコーディングモデル / ヒト脳活動 / 視覚情報処理 / 大脳視覚皮質 / 階層性 / 次元 |
Outline of Research at the Start |
霊長類の大脳視覚皮質は、多数の領野から階層的に構成されている。この階層性に着想を得て構成された人工ニューラルネットワークは近年著しく性能を向上させ、「畳み込みニューラルネットワークでは階層を経るほど表現力(effective dimensionality)は高くなる」ことが最近報告された。視覚の目的といえば、例えば恒常性のような生態学的な有益さに基づいた仮説がこれまで主で、この仮説によれば視覚領 野の階層を経るごとに表現力は低くなることが期待される。ヒトの視覚領野では階層を経るごとに表現力がどのように変化するのか問う。
|
Outline of Annual Research Achievements |
優れた情報処理器官である脳はどのような目的を達成するためにいかに働いているのだろうか。本研究では、大脳視覚皮質とその階層的情報処理に着想を得て構成された人工ニューラルネットワークを比べることで、ヒトの視覚領野の階層的視覚情報処理の実態と目的をデータ駆動型科学の方法論により問う。 今年度は、脳活動を予測するモデルを用いた基礎的な解析を行った。脳活動データとして、被験者あたり10,000枚程度の自然画像を呈示し7T 機能的磁気共鳴画像法(fMRI)により計測した脳活動を用いた(Natural Scene Database; Allen et al., 2022)。fMRIの空間計測単位であるボクセルひとつひとつにつき、同じ画像を種々の人工ニューラルネットワークに入力とした与えた時の内部ユニットの活動を説明変数としてエンコーディングモデルを立てた。そして、モデルの予測精度は人工ニューラルネットワークのパラメータ数や脳活動訓練データ数にどのように依存するか検討した。 その結果、機械学習分野で知られているスケーリング則が脳活動予測モデルにも適応されることがわかった(課題によってはヒトよりも優れた成果をあげることもできるともうたわれる現在の人工ニューラルネットワークは、多数のパラメータを持ち、大規模データにより訓練されている)。すなわち、人工ニューラルネットワークのパラメータおよび訓練データが指数的に増えるにつれ脳活動予測精度は線形に向上した。このことは、神経科学の方法論として個人の脳活動を記述し予測するためには、リッチな説明変数と大規模な脳活動データが必要であることを示す。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
自然画像を大規模に呈示し、ヒト被験者から7T 機能的磁気共鳴画像法(fMRI)により計測した脳活動データ(Natural Scene Database; Allen et al., 2022)を利用して解析を行った。脳活動予測モデルを訓練するデータ(すなわち、各被験者に呈示した自然画像とそれにより引き起こされた脳活動のペア)を10から10,000弱の間で変化させ、Eva-02-CLIP (パラメータ数 0.3B; 次の段落で説明する)の内部ユニットの活動を用いてモデルをたて、その予測精度を定量的に評価した。 また、パラメータ数の異なる種々の人工ニューラルネットワークの内部ユニット活動を用い(EVA-01-CLIP パラメータ数 1.0B、EVA-02-CLIP パラメータ数 0.086B, 0.3B, 4.4B [Sun et al., 2023]、ConvNext パラメータ数 0.85B [Liu et al., 2022]、ONE-PEACE パラメータ数 1.5B [Wang et al., 2023])、脳活動予測モデルの説明変数とした。いずれも画像やテキストのマルチモダリティにおいてあらかじめ訓練された人工ニュールネットワークで、ConvNextを除いてトランスフォーマーである(ConvNextは畳み込みニューラルネットワークである)。これらの人工ニューラルネットワークの間で、脳活動予測モデルの精度を定量的に評価した。 さらに、Eva-02-CLIP (パラメータ数 0.3B)から内部ユニットの活動を抽出することでパラメータの数を10から0.3Bの間で変化させ、脳活動予測モデルの精度を定量的に評価した。 以上は当初の計画通りの進捗状況である。
|
Strategy for Future Research Activity |
【現在までの進捗状況】にて自己点検した通りの進捗状況なので、当初の計画通りに今後も研究を推進する。 加えて、余力が許せば、モデルに依存しない解析として直線化仮説の検証を行う。これは、元来、自然動画が知覚空間で描く軌道は画素空間で描く軌道よりも直線に近くなっていると唱えられた仮説で(Henaff et al., 2019)、情報表現のもつれをほどく(untangle)ことに関係があると考えられる(例えばDiCarlo and Cox, 2007; ただし、時間は一般に考慮されていない)。しかし、最近、大規模言語モデルは自然言語の予測表現をつくるために文の軌道を直線化することを潜在的に学習していることが報告されている(Hosseini and Fedorenko, 2023)。階層的情報処理をデータ駆動型の方法論で解明するために、軌道の直線さは情報表現力と並んで新しい重要な要因となると考える。
|
Report
(1 results)
Research Products
(4 results)