音声刺激によって与えられた聴覚情報を処理するためのモデルとして、音声をMFCCに変換するモデル、音声からテキスト変換を行う深層学習モデルであるEspNet、双方向再帰型モデルである、BiRNN、BiLSTM、BiGRUといった系列情報を処理するモデルを採用し、脳活動状態を推定し、モデルの比較を行った.その結果、EspNetの推定精度が高いことが判明した.また、音声内容を表現するのに、言語内容を埋め込みベクトル表現にする際に、汎用言語モデルBERTおよびその亜種であるRoBERTaや初期の汎用言語モデルであるword2vecなどを音声から抽出した言語内容を表現する特徴量として利用し、脳活動状態推定精度の比較を行った。その結果、その大量のコーパスを元に構築された汎用言語モデルRoBERTaの精度が高いことがわかった. また、視覚情報に対する脳内活動状態を調べるために、VGG16を用いて画像特徴量を抽出し、脳活動状態を推定する符号化モデルを構築した. VGG16の8つの中間層から脳活動状態の推定を行い、脳内の関心領域(ROI)において視覚情報の段階的処理について調査した.この際、Kriegeskorteらによって提案された表現類似解析(RSA)を用いて、ROI毎の情報の類似性を表現した.また、各層においてROIのハブ性及び連結性の調査にPageRankアルゴリズムを用いて解析した.その結果、VGG16の8層において低層から高層に上がるに従い、視覚情報中心の知覚処理から認識を捉える意味表象を司る部位へROIのハブ性が遷移していくことを確認した.この処理内容は言語刺激からなる意味表象のROIとほぼ同じ特性であることがわかった.これらのことは、聴覚刺激と視覚刺激の双方の内容が脳内において知覚から認識へと段階的にシフトし、意味表象として統一的に扱われているということを示唆している.
|