モデルフリーとモデルベースの協同による深層並列強化学習

公募研究

研究領域	人工知能と脳科学の対照と融合
研究課題/領域番号	19H05001
研究種目	新学術領域研究(研究領域提案型)
配分区分	補助金
審査区分	複合領域
研究機関	株式会社国際電気通信基礎技術研究所
研究代表者	内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
研究期間 (年度)	2019-04-01 – 2021-03-31
研究課題ステータス	完了 (2020年度)
配分額 *注記	11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円) 2020年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円) 2019年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
キーワード	強化学習 / モデルフリー / モデルベース / 並列学習 / 非同期制御 / モデル学習
研究開始時の研究の概要	行動学習モデルの一つである強化学習は環境のモデルを必要としないモデルフリー法，環境のモデルを推定して活用するモデルベース法に大別できる。人の意思決定の直感的・習慣的な要素がモデルフリー強化学習、予測的・計画的な要素がモデルベース強化学習に対応し、ヒトや動物は状況に応じてモデルフリーとモデルベースを共同させて行動学習していることが知られている。我々はこれまでに複数のモデルフリー強化学習を並列に学習させる方式CRAILを開発した。本研究はCRAILを拡張し、モデルベース強化学習を考慮した性質の異なる複数の強化学習モジュールを動的に切り替えて学習効率を改善する並列深層強化学習法を開発する。
研究実績の概要	本研究では並列学習法CRAILにモデルベース学習を導入することでサンプル効率を改善することを目的としている。本年度は以下の成果を得た。 (1) モデルベースとモデルフリーで制御周期が異なることに着目し、パラメータ学習器、行動生成器、モジュール選択器をそれぞれ非同期に実行させるようにCRAILを拡張した。制御周期の異なる方策で収集された経験を使ってパラメータを学習するために、経験再生バッファ間に周波数変換器を導入した。また各学習モジュールの割引率を制御周期に応じて設定できるように修正した。さらにモデル学習法として、1ステップ予測を多段に組み合わせる方法とマルチステップ先の状態を直接予測する方法を導入した。前年度に開発した方法と比較し、学習中期でモデルベース、学習後期でモデルフリーを選択するような発達的学習が確認できた。この成果は人工知能全国大会で発表予定であり、モジュール選択方法に学習機能を追加し、実ロボット実験も加えた結果を国際論文誌に投稿中である。神経科学的観点からの妥当性については久保孝富氏に助言を頂いた。 (2) 正の報酬と負の報酬を区別して学習するMaxPainを深層化したDeep MaxPainを開発し、移動ロボットを用いた実験を実施した。なおロボット実験にはJiexin Wang氏に協力いただいた。単純に報酬を分離して学習する従来法と比較し、MaxPainは実環境でもロバストな方策が学習できることを確認した。この成果はNeural Networks誌に採択された。さらにDeep MaxPainにエントロピ正則を導入したSoft MaxPainを開発した。Soft MaxPainはDeep MaxPainと比較し、ハイパーパラメータの選定に敏感ではなく、実用的な方策が得られやすい手法であることを確認できた。この成果は国際会議に投稿中である。
現在までの達成度 (段落)	令和2年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和2年度が最終年度であるため、記入しない。

報告書

(2件)

2020 実績報告書
2019 実績報告書

研究成果
(9件)

すべて 2021 2020 2019

すべて雑誌論文 (2件) (うち国際共著 1件、査読あり 2件、オープンアクセス 2件) 学会発表 (7件) (うち国際学会 2件、招待講演 3件)

[雑誌論文] Modular deep reinforcement learning from reward and punishment for robot navigation2021
- 著者名/発表者名
  Jiexin Wang, Stefan Elfwing, and Eiji Uchibe
- 雑誌名
  
  Neural Networks
  
  巻: 135 ページ: 115-126
- DOI
  10.1016/j.neunet.2020.12.001
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Constrained Deep Q-Learning Gradually Approaching Ordinary Q-Learning2019
- 著者名/発表者名
  Shota Ohnishi, Eiji Uchibe, Yotaro Yamaguchi, Kosuke Nakanishi, Yuji Yasui, and Shin Ishii
- 雑誌名
  
  Frontiers in Neurorobotics
  
  巻: 13
- DOI
  10.3389/fnbot.2019.00103
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[学会発表] モデルフリーとモデルベース強化学習のための非同期並列学習2021
- 著者名/発表者名
  内部英治
- 学会等名
  第35回人工知能学会全国大会
- 関連する報告書
  2020 実績報告書
[学会発表] モデルフリーとモデルベースの協同による並列深層強化学習2020
- 著者名/発表者名
  内部英治
- 学会等名
  第34回人工知能学会全国大会
- 関連する報告書
  2020 実績報告書
[学会発表] Latent brain dynamics estimation and deep generative imitation learning2020
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  31st U.S.-Japan Technology Forum
- 関連する報告書
  2020 実績報告書
- 国際学会 / 招待講演
[学会発表] Parallel deep reinforcement learning with model-free and model-based methods2020
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  International Symposium on Artificial Intelligence and Brain Science
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Parallel reward and punishment learning under entropy regularization2019
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  第29回日本神経回路学会全国大会
- 関連する報告書
  2019 実績報告書
[学会発表] 強化学習と逆強化学習を組み合わせた模倣学習2019
- 著者名/発表者名
  内部英治
- 学会等名
  第25回ステアラボ人工知能セミナー
- 関連する報告書
  2019 実績報告書
- 招待講演
[学会発表] 階層強化学習の進展2019
- 著者名/発表者名
  内部英治
- 学会等名
  第13回Motor Control研究会
- 関連する報告書
  2019 実績報告書
- 招待講演

モデルフリーとモデルベースの協同による深層並列強化学習

研究代表者

内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円)

報告書

研究成果

[雑誌論文] Modular deep reinforcement learning from reward and punishment for robot navigation2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Constrained Deep Q-Learning Gradually Approaching Ordinary Q-Learning2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] モデルフリーとモデルベース強化学習のための非同期並列学習2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] モデルフリーとモデルベースの協同による並列深層強化学習2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Latent brain dynamics estimation and deep generative imitation learning2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Parallel deep reinforcement learning with model-free and model-based methods2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Parallel reward and punishment learning under entropy regularization2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 強化学習と逆強化学習を組み合わせた模倣学習2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 階層強化学習の進展2019

著者名/発表者名

学会等名

関連する報告書

内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)