2016 Fiscal Year Research-status Report
逆強化学習法による「動物の行動戦略を制御する神経基盤」の同定
Project/Area Number |
16K16147
|
Research Institution | Kyoto University |
Principal Investigator |
本田 直樹 京都大学, 生命科学研究科, 特定研究員 (30515581)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 行動戦略 / 逆強化学習 |
Outline of Annual Research Achievements |
動物は行動パターンを制御することで新しい環境に適応することができる。このような行動戦略の同定は動物の意思決定を理解する上で重要である。しかしながら、行動戦略を同定する手法は未だ十分に確立されていなかった。そこで本研究では、動物の行動時系列データから行動戦略を同定する計算論的手法を開発した。この手法を線虫の温度走性行動に対して適用し、線虫が培養温度に移動していく行動戦略を同定することができた。その結果、同定された行動戦略から二つのモードを発見した。一つのモードは培養温度に効率的に移動する特性を持ち、もう一つのモードは等温線上を移動する特性を持つ。さらには、温度感受性神経細胞が機能していない系統の行動戦略を同定し、二つのモードがどのように変化するのかを明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
動物の行動戦略を強化学習でモデル化し、動物の行動時系列データから行動戦略を同定する手法を提案した。強化学習のフレームワークとして線形可解マルコフ決定過程を採用し、動物は得られる報酬を最大化する行動戦略を既に獲得していると仮定した。そして、行動時系列データから行動戦略を表現する報酬関数を推定する手法を開発した。この手法を用いることで、線虫の温度走性における行動戦略を同定した。この成果を現在、論文にまとめている状況である。
|
Strategy for Future Research Activity |
今年度の研究成果を論文として出版することを目指す。今年度開発した手法を、線虫だけではなく、別の動物の行動データへの適用を行なう。また、同定された行動戦略(報酬関数)から動物の行動をシミュレーションするための手法の開発を目指す。
|
Causes of Carryover |
予定していた国際会議を別の予算で捻出したこと、また計算を既存のクラスター計算機で行ったことにより、次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
学生を研究補助として雇用し、また高性能計算機を購入することで、研究の促進を図る。
|
Research Products
(7 results)