研究領域 | 予測と意思決定の脳内計算機構の解明による人間理解と応用 |
研究課題/領域番号 |
26120727
|
研究機関 | 沖縄科学技術大学院大学 |
研究代表者 |
内部 英治 沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)
|
研究期間 (年度) |
2014-04-01 – 2016-03-31
|
キーワード | 強化学習 / 部分観測環境 / 逆強化学習 / 深層学習 |
研究実績の概要 |
強化学習は環境モデルを推定するか否かでモデルベースとモデルフリーに大別できる。環境の状態が完全に観測できる場合、両者は同じ制御則を学習するため、モデルの意味が明確ではなかった。そこで本研究では最新の理論を部分観測問題に拡張する。部分観測問題では両者は異なる制御則を学習するため、モデルの意味はより明確になる。 これまでに研究してきた逆強化学習法はモデルフリーであり、学習前後の状態遷移確率の密度比が報酬と価値関数によって表現されていた。本年度はモデルベースの逆強化学習法を導出するために、報酬関するに与える制約を修正した。結果として、学習前後の確率的制御則の密度比が報酬、価値関数と環境のモデルを用いて表現されることを示した。モデルが既知であれば推定するパラメータの次元はモデルベースのほうが非常に小さくなる。この手法をロボット学習問題に適用し、従来の逆強化学習よりも少ないサンプルで効率よく学習できることを確認した。 部分観測環境において、システムの状態を推定する問題は過去の観測値の履歴情報を次元圧縮する問題ととらえることができる。考慮する履歴は非常に長くなるため、非線形の特徴抽出法が必要である。そこで深層学習の技術を応用する。Rectified Linear Unitを上限とする非線形の活性度関数を用いると学習時間と分類性能を大幅に改善できることがわかった。 さらに部分観測環境にも適用可能な新しい方策探査法を開発した。部分観測環境では状態から観測量は確率的に決定するため、確率的制御則を用いると学習に必要な方策勾配の分散が非常に大きくなる。本研究では決定的制御則のハイパーパラメータを更新するようにすることで分散を小さくしつつ、学習率の必要のないEMアルゴリズムを用いた。提案手法は従来法と比べてパラメータの調整の度合いが少なく、かつ高い学習性が得られた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
使用していたロボットのパーツが製造中止になったことに伴い、実験に使用するロボットを変更しなければならなかった。結果として申請時の予定とは異なりアルデバラン社の人型ロボットを購入し、実験に用いることにした。そのためには含まれなかった新しいロボット上にプログラムを移植する必要があり、そのために予定外の時間を要した。しかしプログラミング開発環境は大幅に改善されたため、これは次年度以降の研究において非常に重要な成果であった。
|
今後の研究の推進方策 |
提案した深層学習法は画像識別課題において非常に高い識別精度を保ちつつ、計算コストを抑えることに成功した。今年度は順・逆強化学習問題に適用する。我々の逆強化学習法は密度比推定法に帰着され、最終的には学習前と学習後のサンプルを分類する問題になるので、深層学習との親和性が高い。 EM学習を用いた決定論的制御則のハイパーパラメータ探索法は、パラメータを更新するとそれまでに収集していたサンプルを廃棄していた。これはサンプルが新しいパラメータの更新にはそのままでは利用できないからであるが、この問題を重点サンプリングを用いて再利用することを考える。この修正によって導出されるアルゴリズムは進化的計算法の観点からすると、過去の世代で得た評価をいかに再利用するかに相当する。このアルゴリズムの理論的性質を調査するとともに、実ロボットを用いた実験で有効性を検証する。 申請時点で予定していた複数モジュールの切り替えについて、各モジュールが異なる時間割引パラメータγを持つと有効であることが本年度の予備実験にて判明した。モデルの精度が低い場合にはモデルベース学習は有効ではなくγは小さくで十分で、精度が高い場合にはγを大きくしたほうが良い。一方でモデルフリーでは必ずしもそうとは限らない。この仮説に立ち、モジュール切り替えの条件をモデルの予測誤差とすることで、モデルベースとモデルフリーのどちらを選べばよいかの基準を導出する。現在そのためのシミュレーションを実施中である。 使用するロボットをアルデバラン社のNaoに変更したため、ロボティクス分野における標準的なミドルウェアの一つであるROSを使ってプログラムを記述できる。再利用可能なソフトウェア群を開発することも今後の予定である。
|