研究課題/領域番号 |
24500249
|
研究機関 | 沖縄科学技術大学院大学 |
研究代表者 |
内部 英治 沖縄科学技術大学院大学, 神経計算ユニット, 研究員 (20426571)
|
キーワード | 強化学習 / 逆強化学習 / 報酬関数 / 密度比推定法 / KLダイバージェンス |
研究概要 |
意思決定の数理モデルの一つである強化学習を実際の問題に適用するためには適切な報酬・コスト関数を準備する必要があったが、これまでは実験者が試行錯誤的に決定せざるを得なかった。前年度の結果より、コスト関数をKLダイバージェンスで表現する制約を導入した逆強化学習法が有望であることが判明したため、今年度はその基礎理論の構築に従事した。 一つは学習前と学習後の状態遷移確率の間のKLダイバージェンスを制御量コストとして制約した方法で、これは線形可解マルコフ決定過程における逆強化学習法として定式化され、確率密度関数の比の対数が状態依存のコスト関数と状態価値関数によって表現される。密度関数の比は密度比推定法によって効率よく推定できる。その結果をもとにコスト関数や価値関数が制約付き最小二乗法を用いて推定できる。この枠組みでは従来と異なりスタートからゴールまでの状態の軌跡は必要ではなく、状態遷移の組から学習できる。この手法は観測対象の行動が直接観測できないようなヒトや人工システムの解析に適している。これらの成果はRLDM Workshop, IBIS Workshop等でポスター発表し、来年度前半にJournal of Machine Learning Researchに投稿予定である。また並行して特許を申請する。 もう一つの方法はベースとなる制御則と最適制御則の間のKLダイバージェンスを制御量コストとして制約した方法で、これはDynamic Policy Programmingにおける逆強化学習法として定式化される。この手法も同じく密度比推定法や制約付き最小二乗法を用いて効率よく推定することができる。この手法は制御則の解析的な表現が得られるようなロボット制御の問題に特に有効である。これらの成果はICDL-EpiRob 2014に投稿中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
申請時の計画と比べると計画遂行の順序に変更はあったが、アルゴリズムの開発に関しては前年度の遅れを大幅に取り戻すことができ、結果として情報理論に基づいた報酬関数の設計論を構築できた。提案手法の実装は密度比推定と正則化付き最小二乗法から構成され、現在Least-Squares Conditional Density Estimation、unconstrained Least-Squares Importance Fitting、Logistic Regression、Gaussian Processの四種類による密度比推定法を実装済みで、正則化付き最小二乗法はL1、L2ノルムを用いたものが実装済みである。課題としては簡単な倒立振り子のシミュレーションだけでなく、ヒトの振り子の振り上げ課題を解析する実問題を扱った。これに関連して、ヒトの行動を観測するための画像計測装置をMicrosoft社のKinectセンサーを用いて実装した。 ただし外部発表はポスター発表四件にとどまり、やや遅れている。これは提案手法をICML 2014に投稿したものの、採録されなかったことによる。理由の一つとして、従来法との比較が不十分であったことを指摘された。そのため、提案手法と関連する逆強化学習法であるOptV、経路積分による逆強化学習法、Maximum Entropy Inverse Reinforcement Learning、Relative Entropy Inverse Reinforcement Learningを実装し、比較実験を行い、本研究の有効性を実験的に示した。
|
今後の研究の推進方策 |
研究実績の所で述べたように、前年度までの成果を5月中に英語論文誌および国際会議に投稿予定である。 今年度は逆強化学習法によって推定されたコスト関数や価値関数を用いた、最適制御則を獲得するための順強化学習法を開発する。我々の開発した逆強化学習法はコスト関数だけでなく価値関数も同時に学習できることが利点である。通常の逆強化学習ではコスト関数はスパースネスの制約とともに推定されるために、得られたコスト関数は順強化学習によって制御則を学習するためには不向きであった。本手法では、同時に推定される価値関数を強化学習におけるシェーピング理論のポテンシャル関数として用いることを考える。これによって獲得される最適制御の不変性を保ったまま学習効率を改善できる。 また開発した二種類の逆強化学習の理論的性質および違いを明らかにする。最大の違いはKLダイバージェンスを計算する確率分布であり、状態遷移を用いる方法は環境固有の状態遷移の不確実さによる制約を満足しない制御則を表現する場合がある一方、制御則を用いる場合は順強化学習が複雑になるという問題がある。これらの長所・短所を比較し、それぞれの問題点を解決する手法を開発する。
|
次年度の研究費の使用計画 |
旅費等はおよそ計画通りに執行できたが、ロボットは一月まで故障なしで使用することができたため、修繕費やそれに伴うパーツ等をほとんど購入することなく研究が遂行できたことが主な理由である。また、数値実験によるシミュレーションに用いる計算機もこれまでに使用していた安価なもので済ますことができた点も大きい。 先に述べたとおり、使用しているロボット複数台にいくつか故障個所があり、そのための修繕費が主な用途になる。計画では充電用の電池パックも増やす予定であったが、その分の予算をロボットの修繕費に割り当てて対応する。また、逆強化学習を用いた研究成果を神経科学者や機械学習研究者と議論し、広い分野からのフィードバックを得るために、現時点で二件の海外発表と二件の国内発表を予定している。それ以外にも積極的に外部の研究者と情報交換するために、海外への旅費を大目に割り当てる予定である。
|