研究課題/領域番号 |
24500249
|
研究種目 |
基盤研究(C)
|
研究機関 | 沖縄科学技術大学院大学 |
研究代表者 |
内部 英治 沖縄科学技術大学院大学, その他の研究科, 研究員 (20426571)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 強化学習 / 報酬関数 / 逆強化学習 |
研究概要 |
意思決定の数理モデルの一つである強化学習を実際の問題に適用するには報酬関数をうまく設計する必要があったが、これまでは実験者が試行錯誤的に準備するしかなかった。この研究では環境との相互作用から得られる情報から内的報酬を生成し、それを使って効率よく学習を実現するための枠組みを開発することが目的である。この内的報酬は学習の進捗状況に応じて変化する動的な特徴量である。 本年度はまず相互作用を情報量基準によって計算されるいくつかの特徴量で記述し、それらの組み合わせで記述される報酬を進化的手法によって最適化するシミュレーション実験を行った。具体的には状態の訪問頻度や環境の予測モデルの推定誤差および誤差の減少率などである。これは特徴を事前に準備するという点でトップダウン的アプローチである。この実験を複数の環境下で実施した。その結果、幾つかの特定環境下ではこれらの特徴を使うことが有効であることが示せたものの、ほとんどの場合は目標状態までの距離を反映した特徴量が得られるか否かで学習の効率度が大きく反映されることが判明した。 また逆強化学習の理論のサーベイを行い、各所で勉強会を開催した。観測された最適な状態行動系列から報酬を推定するために、DvijothamとTodorvによって開発された方法をベースに報酬を推定する方法を開発した。これは通常の逆強化学習法と異なり、通常の強化学習による制御則の最適化を必要とせず報酬を直接的に推定できるため計算効率が良いが、これまで2次元の状態空間でしか確認されていないなど問題があった。実装には高次元状態空間での積分が必要なため、これをMetropolis-Hastings法によって効率良く計算する方法を実現した。この手法を用いてヒトが倒立振り子の振り上げおよび安定化課題を遂行しているときの行動を解析し、ヒトによるタスク達成の癖を発見することができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本来の情報量基準に基づく特徴量をベースにした報酬関数のトップダウン的な設計論については思うような成果が出ていないのが現状である。実績の概要で述べたように、目標状態までの距離を反映する特徴があるか否かが重要で、これは我々が以前に研究してきた報酬のシェーピングに関する結果を補強するものの、新規的な結果ではなかった。学習前に目標状態までの距離を推定するためには、事前に学習済の環境と現在直面している環境との違いを報酬関数の設計に反映させる必要があるが、それがTransfer Learningと呼ばれる分野と密接な関係があることがわかったが、本研究にも利用可能な形でTransfer Learningの技術を応用することができなかった。結果としてこのトピックについて外部発表および論文にまとめることができなかった。 一方で最適制御則から得られる状態と行動の系列から報酬を推定する逆強化学習の研究については大きな進捗があった。これは本来平成25年度に主に研究する計画であったが、基礎的なアルゴリズムは結果的に前倒しで達成することができた。まずはヒトが倒立振り子を振り上げ安定化しているビヘービアをカメラによって観測し、そこから得られた画像特徴の系列を最適状態の系列として用いた。このとき開発したシステムはロボットの行動解析にも利用できる応用範囲の広いものである。その後研究実績の概要で述べた方法によって報酬関数を推定し、それらは被験者のタスク達成の癖を反映したものであることがわかった。この成果は25年5月に多くの神経科学者が参加するInternational Symposium on Biology of Decision Makingにて発表予定で、機械学習研究者が参加するEuropean Workshop on Reinforcement Learningに投稿中である。
|
今後の研究の推進方策 |
まずはトップダウン的なアプローチにおいて、より詳細で系統的なシミュレーション実験を実施する。先に述べたように、より良い報酬を設計するためには、以前に学習した環境と現在直面している環境の差を反映した特徴を用いるのが有効であるが、そのための手としてTransfer Learningと呼ばれる研究分野についてサーベイを実施する。また前年度実施できなかった実ロボット実験も実施する。これらの成果を25年度中に論文としてまとめることを目指す。 それと同時に、大きな進捗があった逆強化学習法を用いて、(1)ロボットと(2)ヒトの最適状態行動系列の解析を実施する。ロボットを使った解析では、先のトップダウン的なアプローチで獲得された状態行動系列を解析することで、その報酬を推定するために必要な特徴を選択する。これは当初のKLダイバージェンスに基づく推定よりも、より意思決定過程を考慮した報酬の推定ができると考えられる。また、ヒトの行動解析では、ヒトの意思決定における遅れ時間などを考慮したモデルを導入し、各被験者の認識モデルと報酬を同時に推定する枠組みを開発する。これは当初の計画にはなかったことであるが、この研究が単に人工的なシステムにおける報酬関数の設計だけではなく、ヒトなどの生物の意思決定モデルの解析手段として有望であることが判明したからであり、同時並行的に研究を推進することは大いに意義がある。また理論的な枠組みは基本的には同一であり、エフォートを変更することなく研究を遂行できると考えられる。 また逆強化学習による報酬関数の推定に、機械学習の分野で盛んに研究されている特徴選択の手法を組み合わせることで、当初の計画通り実験者だけでなく非専門家に理解しやすい報酬の特徴を発見するための枠組みを開発する。そのために特徴選択のサーベイを実施する。
|
次年度の研究費の使用計画 |
前年度は使用しているロボットがほとんど故障することがなかったために、そのための改造費などが必要なかったが、今年度はロボットをより頻繁に使用するために、修理・改造費に多く研究費を割り当てる予定である。また、現在使用している人の行動を計測するためのシステムを改善し、より多くの特徴を同時に画像から計測する必要がある。そのための開発に少額ではあるが使用する予定である。これは当初の計画にはなかったが、実験を継続するうえで必要不可欠であることが判明したための措置である。 また逆強化学習を用いた研究成果を神経科学者や機械学習研究者の前で発表し、より広い分野からのフィードバックを得るために現時点で二件の海外発表を予定している。それ以外にも積極的に外部の研究者と情報交換するために、海外への旅費を当初の計画よりも増額する予定である。
|