自然動画像と言語の情報処理を連関しながら行う脳内メカニズムを深層ニューラルネットワーク(DNN)によるモデルを作業モデルとして解明することを目的とし、視覚野と言語野の連関に基づいてヒト脳の内部に生成された高次意味表象をDNNとの対応関係の学習を通じてDNNの中間層の状態として抽出することを試みた.具体的に得られた知見として、画像刺激に基づく脳活動データからの文生成においては、fMRIで取得されるデータが少ないため、脳活動データを有効活用する技術として、擬似的にデータを拡張する手法を適用し、増強された擬似データを用いて文生成を行なったが、文生成における精度の飛躍的向上には繋がらなかった.そのため、画像刺激の脳活動データに対してキャプションが付いている公開データBOLD5000を用いて、さらにデータを増強し実験を進め、精度の向上を確認した. 音声刺激に基づく脳活動データからの文生成においては、動画像刺激からの文生成の時と同じように、深層学習モデル(音声の場合は、Speech-to-Textを扱うモデル、とくにEncoderとDecoderを End-to-Endで学習できるモデルとしてESPnetを援用することにより、少ないfMRIデータの有効活用を行う脳内情報解読手法の構築を進めた.脳活動データから特徴量推定のモデルをRidge回帰から多層パーセプトロンに変更し推定することにより、観測された特徴量と推定された特徴量の間において相関性の向上が確認された.これを用いて音声刺激下の脳活動データから、ヒトが脳内で想起した言葉を抽出する脳内情報解読手法の開発を進めた.
|