研究領域 | 人工知能と脳科学の対照と融合 |
研究課題/領域番号 |
16H06563
|
研究機関 | 沖縄科学技術大学院大学 |
研究代表者 |
銅谷 賢治 沖縄科学技術大学院大学, 神経計算ユニット, 教授 (80188846)
|
研究期間 (年度) |
2016-06-30 – 2021-03-31
|
キーワード | ディープラーニング / 強化学習 / モジュール自己組織化 |
研究実績の概要 |
1)多階層表現学習の数理基盤:ディープラーニングを強化学習に用いる従来手法のDeep Q-Network (DQN)では、学習の安定性を保証するために将来報酬の予測を行うネットワークを一定期間学習させずに固定するという、データ効率を犠牲にした手法が用いられていた。その改善に向けて、DQNアルゴリズムを一般化したApproximate Value Iterationの枠組みでの収束速度の数理解析を行い、それをもとに将来報酬の予測を行うネットワークをより早く更新できる新たなアルゴリズムの導出を行なった。多数のゲーム課題を用いたシミュレーション実験により、多くの課題でデータ効率が改善されることを確認した。 2)多階層表現学習の神経機構:大脳基底核での情報表現の獲得機構を明らかにするため、線条体の異なるコンパートメントの細胞を区別した新たな光学神経活動計測実験を行った。その結果、行動学習の初期と後期の異なるフェーズで報酬予測に関わるニューロン群が存在することを新たに発見した。さらに、大脳皮質での予測的な情報表現の計算機構を明らかにするために、マウスにレバーの微小な動きを識別させ操作を行わせる新たな行動パラダイムを開発し、そのための実験装置の作製と制御ソフトウェアの開発を行なった。また、大脳皮質の異なる層の神経活動を同時計測するために、内視鏡とプリズムを用いた新たな光学神経活動計測システムの立ち上げを行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1)多階層表現学習の数理基盤:ディープラーニングを強化学習に用いる場合に、学習の安定性を保ちつつデータ効率を上げるための新たなアルゴリズムを導出し、シミュレーション実験によりその性能改善を確認した。 2)多階層表現学習の神経機構:光学神経活動計測とデータ解析により、大脳基底核の線条体にはは行動学習の異なるフェーズで報酬予測に関わるニューロン群が存在するという新たな知見を得ることができた。
|
今後の研究の推進方策 |
1)多階層表現学習の数理基盤:ディープラーニングによる強化学習のデータ効率をさらに改善するため、Approximate Value Iterationの数理解析をもとに、さらに効率の良いアルゴリズムの開発を進める。 2)多階層表現学習の神経機構:大脳皮質での予測的な情報表現の光学神経活動計測実験を進め、一次感覚野と一次運動野の各層の動的な情報表現の違いを探索する。
|