脳と人工知能の融合による知能拡張研究を行った。ラットの聴覚認識能力には限界があり、人間の言語のような複雑な音認識が難しいが、聴覚皮質の脳波レベルでは深層学習を用いて言語の区別ができ、さらにラットが聞いた経験のないフレーズに対しても正しく脳波から言語を判別することに成功した。そしてこの結果を利用して、深層学習モデルの判別結果に応じて体性感覚皮質を異なるパターンでリアルタイムに刺激したところ、言語の聞き分けを学習できることが分かった。また学習成立後はフィードバック刺激をオフにしても、全く新しいフレーズを聞かせても正しく言語を聞き分けられるようになっていることも確認した。深層学習モデルが脳波のどの部分に注目して言語予測を行っていたか調べるIntegrated Gradientsの解析を行ったところ、特に学習後には、音源定位や周波数処理を担う領域で貢献度が下がり、学習やコミュニケーションに関わる領域での貢献度が上がる傾向を発見した。ラットにとって言語という概念は未知のものであるが、音の高次な情報処理を担う神経回路が言語予測にも適応して用いられた可能性を示している。 加えて、深層学習がどこまで複雑な聴覚情報を解読できるか調べるため、言語の分類に用いていたネットワークよりもパラメータ数の多い予測モデルを作成した。このモデルは量子化された潜在空間を持つ音の生成モデルの潜在空間を予測する。訓練時には音声認識モデルと似た階層処理を持つように訓練するPerceptual Lossを導入した。その結果、脳波から音声スペクトログラムの再構成に成功した。この手法は、言語数やフレーズ数が上限となるクラス分類とは異なり、音の構成情報をそのまま脳波から再現することができるため、より汎用的な脳波解読及びニューロフィードバック実験に使用することができる。
|