2012 Fiscal Year Annual Research Report

モデルベース予測状態フィードバックを組み込んだ強化学習

Publicly Offered Research

Project Area	Elucidation of neural computation for prediction and decision making: toward better human understanding and applications
Project/Area Number	24120527
Research Institution	Okinawa Institute of Science and Technology Graduate University
Principal Investigator	内部英治沖縄科学技術大学院大学, その他の研究科, 研究員 (20426571)
Project Period (FY)	2012-04-01 – 2014-03-31
Keywords	強化学習 / モデルベース / モデルフリー
Outline of Annual Research Achievements	意思決定の数理モデルの一つである強化学習の枠組みとしてモデルフリー型とモデルベース型に大別できるが、両者はともに現在の状態に対するフィードバック制御器を求めるといった点では同じである。しかしモデルから得られる予測情報を制御器に組み込むことはこれまでなされていなかった。計画ではモデルを既知としてモジュールを統合する理論を構築し、その後モデルが未知の場合を検討する予定であった。しかし予備実験の結果、モデル化誤差が線形化ベルマン方程式に基づく手法では深刻な影響を及ぼすことがあることが明らかになった。当初の計画では真のモデルが既知であることを前提に理論構築する予定であったが、モデル化誤差を最初から考慮する必要があることが判明した。そこで研究計画を修正し、制御対象のモデルが未知の場合に線形化ベルマン方程式をどのように適用するかを先に検討した。まずはモデルを相互作用から得られる状態と行動の系列から明示的に推定し、従来の解法によって制御器を求めるモデルベース法の開発に取り組んだ。モデルの推定は古典的な最小二乗法に基づく方法を採用したが、モデル化誤差が最終的な制御性能に及ぼす影響を調査した。次に制御器を直接推定するアルゴリズムを線形化されないベルマン方程式の解法を参考に開発した。これらはシミュレーションによる単純なベンチマーク課題だけでなく、実際のロボットを用いた実験でも検証した。モデルベース・モデルフリーの両手法が実ロボットに適用可能であることが確認できたため、これらをベースに複数の制御器を組み合わせる実験を実施した。これは従来簡単なシミュレーションでしか検証されてこなかったが、四脚ロボットを用いたナビゲーション課題に適用することで、線形化ベルマン方程式に基づく複数制御器の組み合わせが実問題にも適用可能であることを示した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 計画遂行の順序に変更はあったが、結果的にみたときの達成度はおおむね順調である。まず本研究における線形化ベルマン方程式に基づく手法が実環境でも真に有効であることを示すために、モデル学習機と組み合わせた行動学習アルゴリズムを実ロボットに実装し、車輪型移動ロボットのナビゲーション課題を学習させることができた。モデル学習との組み合わせは25年度に実施予定であったが、これが24年度中に確認できたため、本年度は制御器の合成に専念できる。この手法はFrontiers in Neurorobotics誌に採録された。これは価値関数を指数関数によって変換した好適度関数の推定が実システムでも可能であることを示した最初の論文である。また、この手法をモデルフリーの形式で実現したアルゴリズムを開発することができた。これは当初の計画にはなかったが、従来の手法を応用できることに気が付いたために24年度に確認できた。また、モデルフリーの形式で推定した制御器と好適度関数を基に制御器を組み合わせる実験も実施することができた。この組み合わせもこれまでシミュレーションでしか確認されてこなかったが、実ロボットを用いた実験によって検証することができた。さらにモデルフリーの場合には、複数の好適度関数の間で共通に計算できる部分を発見した。これによってモデルフリーの形式の方が制御器の組み合わせに有効であることを実験的に確認できた。この成果は国際会議ICDL-EpiRob 2013に投稿することができた。
Strategy for Future Research Activity	計画ではモデルは制御対象の運動方程式に限定し、最適制御器と組み合わせることで将来の状態を予測する方針であった。しかし領域会議での議論ののち、本計画においてモデルを関節角の目標軌道を生成するような軌道生成器とするアプローチも可能であることが明らかになった。このアプローチに従えば、将来の状態は軌道生成器から容易に得ることが可能で、計画時に想定したモデルを多段に組み合わせる方法よりも効率が良い。さらに目標軌道生成器は設計者が容易に与えることが可能であり、24年度に確認したモデル学習のような手法と組み合わせる必要はない。そこで目標軌道生成器をモデルとするアプローチにおいて線形化ベルマン方程式が真に実現可能かどうかを検証する。これによって、当初の計画とは異なる形であるが、将来の状態を考慮した制御器の設計が可能になると考えられる。シミュレーション実験の後、実ロボットを用いた実験によって検証する。同時に制御対象の運動方程式をモデルとする計画通りの研究も継続する。24年度の計画では制御器の合成ができることは確認できたが、合成された制御器によって実現される行動は限定的であり、事前に多くの学習済の制御器が必要であった。そこで柔軟な制御器の合成を実現するために必要な学習済の制御器が満足すべき条件について理論的および実験的に考察する。まずは与えられた課題を実現する制御器がすでに学習した制御器の組み合わせで実現できるかを判断できる基準を作り、実現できない場合にはそれを通常の方式で学習する枠組みを開発する。このとき24年度に開発したモデルフリーの形式を用いると共通化できない部分を追加で推定すればよいので、効率よく新しい課題を学習できると期待できる。これは当初の計画にはなかったモジュールの構造をいかに設計するかという問題に取り組むことになり、研究を発展させるうえで重要な意義を持つと考えられる。

Research Products
(1 results)

All Journal Article (1 results)

[Journal Article] Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task2013
- Author(s)
  Ken Kinjo, Eiji Uchibe, and Kenji Doya
- Journal Title
  
  Frontiers in Neurorobotics
  
  Volume: 7 Pages: 1-13
- DOI
  10.3389/fnbot.2013.00007