研究課題/領域番号 |
16K12504
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 強化学習 / 逆強化学習 / EMアルゴリズム / スマートフォンロボット / 進化的計算 |
研究実績の概要 |
本研究はカルバックライブラー(KL)制御など情報理論に基づいた強化学習法と内的報酬に基づく強化学習理論をベースにした環境探査のための強化学習アルゴリズムを開発することを目的としている。本年度は以下の成果を得た。 (1) 線形可解マルコフ決定過程システムのパラメータが学習過程に及ぼす影響の調査: ミニマックス制御として拡張した線形可解マルコフ決定過程の外乱の程度を調整するパラメータと学習過程の関係を調査した。 (2) 環境探査のための報酬の符号の分離: 強化学習の理論では環境の即時評価を示す報酬は「正の報酬」と「正の罰」を単一のスカラー量として扱うことが多かったが、ベルマン最適方程式を用いる強化学習法では行動に関して最大値をとるmax演算子のため、負の値として設定した「正の罰」が遠い状態に伝播されない。この問題に対処するために、実際の生物の神経回路を模倣した符号の分離システムを調査した。 (3) スマートフォンロボットを用いた自律分散協調ロボットシステムの開発: 強化学習のメタパラメータの影響を調査するためには、メタパラメータの値の異なる学習システムを並列に実行し学習過程を比較する方法が有効である。また、実ロボットにおける学習のサンプル効率を改善するために、複数学習システムのためのアルゴリズムの開発が重要である。そのためのロボット実験システムを作成した。 (4) モデルフリー逆強化学習と強化学習の統合: エキスパートからの行動から報酬を推定する逆強化学習の結果を利用する際、従来は逆強化学習システムとは独立した強化学習システムを用いていたため学習の効率が悪い問題があった。そのため、逆強化学習システムで推定したネットワークを強化学習システムに転用するための基礎技術について調査した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1) 前年度に投稿した線形可解マルコフ決定過程のロバストさを評価した論文は微修正の後Journal of Artificial Life and Roboticsに採録された。 (2) スカラー値として処理されてきた報酬を符号によって分離し、それぞれに状態行動価値を推定するシステムを開発した。特に負の値を学習するシステムは方策オフ型の学習アルゴリズムを使用することで長期の正の罰信号を予測することが可能になった。また異なる割引率を設定することが可能となり、最終的な方策の決定に柔軟性を持たせることが可能となった。実験結果により、従来よりも安全な経路を選ぶ方策が獲得できただけでなく、環境の探査効率も改善することができた。この結果はIEEE International Conference on Developmental Learning and on Epigenetic Roboticsに投稿済みである。 (3) EMアルゴリズムを用いた強化学習アルゴリズムをスマートフォンロボットに実装し、充電行動や他のロボットとの通信行動の学習実験を実施し、実環境でも少ないサンプル数から学習できることを示した。この実験の一部を日本神経回路学会誌の解説記事として寄稿した。また大規模ロボット実験のための充電行動およびロボット間通信行動の学習についてもロボティクス・メカトロニクス講演会に投稿した。 (4) これまでに開発されてきた逆強化学習システムは報酬だけを推定するものであったこと、逆強化学習と強化学習が異なる仮定の下で導出されていたため、両者の間で学習結果を共有することができなかった。開発した手法では報酬だけでなく状態価値関数も同時に推定するため、推定した状態価値関数を強化学習の学習時の高速化に利用すると同時に強化学習の結果を逆強化学習の推定時に相互に利用することが可能となった。
|
今後の研究の推進方策 |
本年度は1つのエージェント内に感覚行動を共有する複数の学習器が混在するシステムを設計し、それらが同時に協調・競合しながら学習するシステムを開発する。以下のように研究を進める。 (1) 各学習器で利用する学習アルゴリズムとして、エントロピー制約を用いた情報量基準の観点から開発されたものを使用する。これにより学習過程の安定化やサンプル効率の改善を図るだけでなく、強化学習理論と情報理論の両者を統一的に記述する枠組みを与える。これはDynamic Policy Programmingと呼ばれるクラスに相当し、その理論的な解析の一部はArXivにて報告した。 (2) 内的報酬として用いられるものの一つに経験カウントがあるが、これは離散状態、離散行動のシステムに対して開発されたもので、ロボット制御に必要な連続システムには直接適用できない。そのため、従来は疑似密度と呼ばれる量が用いられることが多かったが、計算が非常に複雑かつ学習システムとの関係が明確ではなかった。そのため、これまでに開発した、ある方策の下での定常分布の勾配を推定するアルゴリズムをニューラルネットワークと利用できるように拡張する。この方法によって(正規化されていない)定常分布が推定され、即時報酬と組み合わせることで状態行動価値関数を再構築できる。 (3) 上記(2)の発展として、異なる方策を用いた場合の定常分布の推定値を同時に計算する。そのために多重重点サンプリングを用いることで学習過程の安定化を図る。これにより、環境をくまなく探査するための制御方策は、推定された定常分布と一様分布との相互情報量から計算される内的報酬を用いることで学習することができる。これは経験カウントのような即自的な評価だけを用いる方法と異なり、長期的な観点から報酬が計算されることで、より適切な内的報酬の計算論として利用できる。
|
次年度使用額が生じた理由 |
(理由)研究計画よりも研究が進んだこと、ロボットを修理する必要がなかったことなどより、出張を取りやめて論文執筆の比重を増やした。そのため旅費に確保していた部分を次年度に繰り越すこととした。 (使用計画)最終年度であり、オープンアクセスのジャーナルに投稿予定であるため、論文投稿料を増額する。また、スマートフォンロボットの台車部分を改良する必要があるため、その開発費に配分する。
|