2016 Fiscal Year Research-status Report
熟練者のスキルを超越するアンサンブル逆強化学習の提案
Project/Area Number |
16K12485
|
Research Institution | Yokohama National University |
Principal Investigator |
濱上 知樹 横浜国立大学, 大学院工学研究院, 教授 (30334204)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 機械学習 / 逆強化学習 / アンサンブル学習 |
Outline of Annual Research Achievements |
強化学習(Reinforcement Learning, RL)は学習主体であるエージェントが,タスク達成に結びつく報酬を用いて,自律的に行動を獲得する学習法である。一般に報酬は設計者の知識にもとづいて設定されるが,報酬に対する明確な知識がない場合,適切な報酬の設定は困難な問題となる。このような場合には,報酬の推定も学習機構に含む逆強化学習(Inverse Reinforcement Learning, IRL)が有効である。 IRLでは,タスクを最適方策で達成可能なエキスパートエージェント(Expert Agent, EA)の存在を仮定している。そして,学習エージェント(Learning Agent, LA)は,EAの振る舞いを観測することで,EAが内部に持つ報酬関数を推定する。そして,推定結果にもとづいて強化学習を行い,EAと同等の振る舞いを獲得する。しかし,実問題においてはタスク達成可能なエージェントがEAであるとは限らない。観測可能なエージェントの振る舞いは,たとえタスクが達成可能であったとしても,冗長な行動や不合理な振る舞いをする場合がある。このように不完全な演示しかできないエージェントを,準エキスパートエージェント(semi-EA, sEA)と呼ぶ。一般にsEAは複数存在しうるが,複数のsEAからIRLを行う方法は明らかではない。 本研究では,この課題を解決する手法として,IRLとメタ学習の一種である適応ブースティング(Adaptive boosting)を組み合わせたsEA集団からのアンサンブル逆強化学習を提案している。具体的には,複数のsEAから報酬関数を個別に推定し,これらの報酬関数に重みをつけて統合する。そして,統合された報酬関数を用いて,単独のsEAからのIRLより優れた行動の獲得をめざす。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
アンサンブル学習の一種であるAdaboostアルゴリズムを逆強化学習に応用し,複数の報酬関数を統合するシステムを構築した。目的のタスクを達成可能な方策を持つエージェント(サブエキスパート)を複数利用することで,よりタスクの学習に適した報酬関数を獲得するアンサンブル逆強化学習を開発した。複数のサブエキスパートから推定した報酬関数の統合により,それぞれの報酬関数に含まれる不完全知覚の影響緩和を狙いとして適切な報酬配分へが可能になった。本提案システムの有効性を確認するために,不完全知覚状態を含む環境におけるシミュレーション実験を行い,アンサンブル逆強化学習によってよりタスクの学習に適した報酬関数を獲得できること確認し,本提案システムの有効性を示した。
|
Strategy for Future Research Activity |
ここまでに得られた結果により,逆強化学習におけるアンサンブルの効果が明らかになった。これは,個々のsEAから観測される特徴期待値の重み付き平均を用いて求めた報酬関数でも,論文で示した個々の報酬関数のアンサンブルと同様の性能が得られる可能性があることを示している。逆強化学習の出力である報酬関数をアンサンブルする考え方は,特徴期待値を用いない他の逆強化学習やそれらを混合させたアンサンブル学習時にも有効である。 これらの成果をうけて,次のステップとして報酬関数のアンサンブルに要する計算コストの評価に加え,EAの数と分布および獲得方法の検討,環境の規模・次元に対する計算効率の検討,POMDP環境における性能評価と性能限界の評価について検討を進め,アンサンブル逆強化学習の実用性について明らかにする。
|