研究課題/領域番号 |
16K12504
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 強化学習 / EMアルゴリズム / マルチエージェント強化学習 / スマートフォンロボット |
研究実績の概要 |
本研究ではカルバックライブラー(KL)制御など情報理論に基づいた強化学習法と内的報酬に基づく強化学習の理論をベースにした新しい環境探査のための強化学習アルゴリズムを開発することを目的としている.本年度は以下の三項目において成果を得た。 (1) KL制御のロバスト化: 通常のKL制御では環境のダイナミクスから導出される受動ダイナミクスが重要な役割を果たすが、これまではダイナミクスのモデル化誤差が最終的に導出される制御則に与える影響について調査されてこなかった。そこでHJB方程式を拡張したHJI方程式を用いることでゲーム理論の考えを導入し、KLダイバージェンスの代わりにRenyiダイバージェンスを用いることでHJI方程式を線形化する方式において、環境のモデルパラメータの変動や遷移確率の分散が及ぼす影響について調査した。 (2) EMアルゴリズムを用いた強化学習におけるベースラインの調節: 決定論的方策のパラメータを最適化する方策探査法において、パラメータを更新する際にすべてのサンプルを用いると学習効率が悪くなることが知られていた。そこで本研究では方策改善にあまり貢献しないサンプルを切り捨てるための閾値を動的に調整する方法を開発した。実験結果を解析したところ、学習の初期段階ではほとんどタスクを達成できない多数のサンプルから形成されるピークと、少しだけ達成できる少数のサンプルから形成されるピークの二つのピークを持つことが多く、提案手法はこのようなケースで特に有効に働くことを確認した。 (3) マルチエージェント強化学習におけるコミュニケーションの創発: 他のエージェントの状態を直接表現する代わりに、低次元に圧縮した情報を通信することで状態数を大幅に削減するモジュール強化学習法を開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
(1) アルゴリズムは離散MDPと連続MDPで検証した。その結果、価値関数を厳密に計算できる離散MDPの場合はロバストネスを調整するパラメータの調整が容易で、最大値を設定すれば環境の変化に対して最もロバストな制御則が獲得できることを確認した。一方で、必然的に関数近似器を用いる必要がある連続MDPの場合は、近似誤差の影響も考慮しなければならないことが分かった。特にロバストネスパラメータを大きくすると近似誤差も大きくなることが確認でき、ロバストな制御則を獲得するためにはロバストネスパラメータをメタパラメータとして調整する必要があることが分かった。研究成果は査読付き英語論文誌Journal of Artificial Life and Roboticsに投稿済みである。 (2) 開発したEMアルゴリズムに基づく方策探査法はKL制御の一つである経路積分強化学習やREPSとよく似たアルゴリズムであるが、実際に制御して得られたサンプルをどれだけ利用するかの点が異なっていた。この点に着目して数値実験したところ、多くの課題において開発した手法は学習の初期段階では多くのサンプルを棄却するものの結果的には学習に必要なサンプル数が少なくて済むことを確認した。研究成果は査読付き英語論文誌Frontiers in Neuroroboticsに採録された。 (3) 獲得された最適制御則と結果的得られた協調行動を解析したところ、協調行動を実現する際に必要なエージェントの位置情報をコンパクトな通信行動に写像していることが確認でき、環境のサイズが大きくなるほど通信の効果が得られることを実験的に示した。研究成果は査読付き国際会議 IEEE International Conference on Developmental Learning and Epigenetic Robotics 2016に採録された。
|
今後の研究の推進方策 |
本年度は特に(2)と(3)について進める予定である。 (2) 提案手法はKL制御をある種拡張したものになっているが、報酬関数については通常の非負の関数を使うことになっている。この部分に内的報酬の理論を用いて学習の効率化を目指す。特にスマートフォンロボットを用いたナビゲーション課題では、視覚情報から計算される報酬(視覚報酬)は不正確で、実際のロボットの目標位置とずれていることが確認されたため、本年度は視覚報酬のパラメータの調整を内的報酬の理論を用いて実施する。まず視覚報酬から導出される目標位置と実際に目標状態に到達できたかどうかを調べることでパラメータを調整することを考える。 (3) 前年度に開発したモジュール強化学習では、通信行動は単なるシンボルであって構造はなく、単に自分自身の位置情報を分類したものになっていた。そのためタスクが複雑になったときには通信行動も単純に増加するため、モジュール化の利点が失われてしまう。そのため、通信行動を「何を」「どうする」といったように複数の通信行動の組み合わせによって実現することで、通信行動の増加を抑えつつタスク達成に必要なモジュール構造はどのようなものであるかを検討する。 また(2), (3)を実環境で検証するためのスマートフォンロボットのハードウェアを改善する。これは使用していた一部のパーツが販売終了したことに伴うものであり、現在はより汎用的な部品をベースにしつつ、必要に応じて3Dプリンタを用いて自作できるものに更新する。
|
次年度使用額が生じた理由 |
研究計画よりも研究が進んだため、出張を取りやめて論文執筆に専念した。そのため旅費に確保していた部分を次年度以降に繰り越すこととした。また実験に使用したロボットが故障せず継続して使用することができたため、修理用に確保していた部分も次年度以降に繰り越すこととした。
|
次年度使用額の使用計画 |
従来研究との比較をするうえで、他のグループで使用されているシミュレータを用いた実験が不可欠であるが、シミュレータで使用しているライブラリが有償であり、年間10万円ほどで数台のコンピュータでしか使用できない。そのため本年度以降は、より多くのシミュレーションを実施するために、このライブラリのライセンスを複数購入して、研究のスピードを上げることとする。また、実験に使用していたスマートフォンロボットの一部のパーツが販売終了となったため、本年度は新規のロボット開発をする必要が出てきた。そのためパーツ購入のために多く使用する予定である。
|
備考 |
1. S. Elfwing, E. Uchibe, and K. Doya. arXiv:1702.03118, 2017. 2. S. Elfwing, E. Uchibe, and K. Doya. arXiv:1702.07490, 2017.
|