2019 Fiscal Year Annual Research Report

内部モデルを用いた人型ロボットの歩行運動学習における戦略的行動選択

Research Project

Project/Area Number	19J22987
Research Institution	Kyoto University
Principal Investigator	山森聡京都大学, 情報学研究科, 特別研究員(DC1)
Project Period (FY)	2019-04-25 – 2022-03-31
Keywords	強化学習 / 歩行運動学習 / モデル予測制御 / 確率的推論 / モデル同定 / 最適制御 / 人型ロボット
Outline of Annual Research Achievements	人型ロボットにおける適応的な制御器の学習法として未知環境下で最適行動を学習できる強化学習が有効である．しかし，人型ロボットのような複雑な対象では学習時間が膨大となることが課題であった．原因の一つは学習効率の観点での行動と内部モデルにおける関係性が不明瞭であったことにある．従来のモデル予測制御による方法では力学モデルの予測誤差が制御性能を劣化させるため，モデル学習のためのデータが大量に必要であった．そこで本研究では学習効率の観点から力学モデルに変わる内部モデルによって強化学習を実現する．本年度はこの目的を達成するために，力学モデルと強化学習のベルマン方程式の関係性に基づく内部モデル学習の提案および評価機である人型ロボットを模した無脚ロボットの環境構築に取り組んだ．提案手法の目的は真の力学系における最適方策を生成できる内部モデルを学習することである．従来の力学系自体を学習する場合よりもモデル複雑さが低減され，結果的にモデル化誤差が低減できる．最適方策は確率推論的な枠組みによって指数型分布族で表現することができることを利用し，ベルマン方程式を考慮することで内部モデルを方策と関連付けて定式化した．この定式化によって内部モデルを方策関数で表現でき，また内部モデルのパラメータを学習するアルゴリズムを考案することができた．また，一方で提案法の評価方法として歩行の重心運動に着目した無脚ロボット（Doya, et al., 1992）を採用し，制御タスクを物理シミュレータ上に構築した．無脚ロボットは重心運動によって移動する車輪型ロボットあるが，中枢パターン生成器（CPG）を用いることで簡単に運動を生成できる．力学モデルは複雑な非線形モデルを構成する一方で，数個のCPGで運動を生成できることから，単純な内部モデルを学習でき効率的に制御器を構成できると考えている．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当初は力学モデルを同定し力学系のフローの関数空間を基底関数で分解することで，低次元された内部モデルを構成しようと試みたが，人型ロボットのような複雑なシステムでは関数空間の基底を学習すること自体が困難で単純な力学系モデルを構成できなかった．そこで方策の関数空間と力学モデルを関連付けるベルマン方程式を利用して内部モデルを構成した．この方針転換はこれまでにないモデル学習の枠組みを提供し，最適制御における新たな方法論となると考えている．一方で，これらのアルゴリズムの提案と実機で評価を行う点に関しては，アプローチを見直したことから遅れが見られる．
Strategy for Future Research Activity	今後は無脚ロボットによる評価を通して，提案アルゴリズムの定量評価を行うとともに歩行運動に最適な方策関数を設計し，これを人型ロボットへ応用していくことで内部モデルによる効率的な制御器の実現を目指す．提案アルゴリズムについては主にサンプル効率の観点における制御性能を評価する必要がある．代表的な強化学習アルゴリズムであるSoft Actor-Critic(SAC)といったエントリピー正則化付きモデルフリー強化学習に対して，提案法が制御性能を落とさすずにデータに対する学習効率を高めるかどうかを検討していく．一方で，方策関数の設計においては人型ロボットにおける歩行パターンを生成できるようなCPGを提案アルゴリズムの枠組みに組み込んでいく．また，これらの実機で評価として実ロボットによる環境構築を行っていく．