研究課題/領域番号 |
16H02873
|
研究機関 | 京都大学 |
研究代表者 |
石井 信 京都大学, 情報学研究科, 教授 (90294280)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 脳型人工知能 / 順逆強化学習 / 模倣学習 / ブレイン・マシン・インターフェース / ソフトコンピューティング |
研究実績の概要 |
研究実績の概要 順逆強化学習モデルの開発 サンプル利用効率の高いモデル同定強化学習法(逐次KL強化学習法)の開発を行った。これまでの潜在KL制御に対して、サンプリング方策の逐次更新を行うことで非線形問題に対するサンプル利用効率を高めた。また潜在空間のダイナミクスに対して、正規化ガウスネットワークによるオンライン学習を用いた。また、複数の学習戦略を混在しながら学習しているエージェントの行動系列に対しても適用可能な並列逆強化学習法を開発した(内田ら、2017)。学習エージェントはしばしば学習初期には探索的戦略を、学習が進行するにつれて搾取的戦略へと切り替えるが、そうした場合であっても、未知の報酬関数、未知の方策パラメータを同時に推定することができる。
ヒトイメージングからの一般手指運動のデコーディング 脳磁図から一般手指運動のデコーディングを行った。独立成分分析によるアーチファクト除去、隠れマルコフモデルによる特徴量抽出の後、判別器にかける。しかし、一部の手指の運動がうまくデコーディングできないことが分かった。筋の受動性により動作しているため脳活動中の運動信号成分が弱いことが考えられる。また、自然動画の顕著度を動画観視時の脳波からデコーディングを行う一般動画デコーディングを試みた。場面転換を含む編集動画観視時には、場面転換点で事象関連電位が観測されることを確認した(濱田ら、2017)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
順逆強化学習モデルの開発においては、サンプル利用効率の高いモデル同定強化学習法と、参照エージェントの学習戦略変化にも追随可能な並列逆強化学習法の開発に成功した。今後は、これらを組み合わせることで、順逆強化学習法の開発へと展開する。また、Fristonらの自由エネルギー原理を利用したモデル予測制御の調査研究を行ったので、今後はその発展版の開発の検討を進める。 一般手指デコーディングの研究は、筋の受動性の要素が大きく、当初想定していた性能が出ていないことが分かった。同様の多自由度運動でありながら筋受動性の影響を受けにくいと考えられる一般腕運動を対象に、現在、追加実験の設定を終えた段階にある。これらとは別に、一般動画デコーディングの予備研究を行い、一部ポジティブな結果を得たので、今後はこの研究の発展版の検討を進める。
|
今後の研究の推進方策 |
逆強化学習については、現在、小型動物の全身運動のデータを得たので、その解析に適用することで、脳-運動シナジーへの応用を試みる。一般に、順逆強化学習は大量のサンプルを必要とすることが多く、そのことが工学的応用性を狭めており、脳の学習モデルとしての妥当性の欠如につながっている。モデル誤差に対してロバストなる強い正則化が入る手法の開発が重要であり、今後はその方向でのアルゴリズム開発に展開する。一方で、ヒトの運動データからの模倣学習への応用も行う予定である。現在一般腕運動の実験準備をほぼ終えたので、データが取れ次第、一般運動デコーディングの研究を再開する。
|