2021 Fiscal Year Research-status Report

完全オンライン型強化学習システムにおける時間と空間の分節化

Research Project

Project/Area Number	18K11473
Research Institution	Osaka Prefecture University
Principal Investigator	野津亮大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)
Co-Investigator(Kenkyū-buntansha)	生方誠希大阪府立大学, 工学(系)研究科(研究院), 准教授 (10755698) 本多克宏大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
Project Period (FY)	2018-04-01 – 2023-03-31
Keywords	強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム
Outline of Annual Research Achievements	本年度の大きな進展としては，ベータ分布伝搬型強化学習を深層強化学習向けに調整し，学習速度を飛躍的に（設定した実験では二倍以上）速めることに成功したことと，差分進化アルゴリズムにおける探索点群の外の効率的な探索方法を提案し，有効性を確認したことをあげることができる．本研究課題では強化学習における行動選択の政策も再検討の対象となるが，パラメータの追加を極力減らしつつもより効率的な探索ができる政策を開発していく必要がある．ベータ分布伝搬型強化学習とは報酬の期待値の分布をベータ分布で表現・学習するものであり，報酬の上限や下限が決まっている問題に対して効果を発揮するものとして以前我々が開発した手法である．今回はこれを深層強化学習向けに構築し直し，その有用性を確認した．また，差分進化アルゴリズムの改良も行った．一般に進化計算アルゴリズムにおいて闇雲に集団外探索を追加すると探索効率を大きく落とすことになる．提案法では，ネルダーミード法をベースにしたが，どれくらいの距離離れたところを探索すべきかについては，差分進化の挙動を考慮して幾何分布によるサンプリングによって決定させることとした．これにより探索効率をほとんど落とさずに外側に解が存在した場合に対応させることに成功した．さらに派生的な研究として，確率バイアスや気分といった心理学的な要素が（強化学習などの）問題に対してどれくらい影響するのかについても調査した．複雑な意思決定になると一般的に用いられているアルゴリズム（選択問題におけるεグリーディ政策，囚人のジレンマ問題におけるしっぺ返し）よりもバイアスがある方が安定したりすることを明らかにし，気象情報による株価変動予測などの精度向上などについても確認した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究では，強化学習や進化計算における明示的，あるいは暗黙的なパラメータ設定の自動化が主な具体的目標となる．一般的にパラメータの数が多いほど学習効率が落ちたり，学習が難しくなるが，本研究では，問題空間の構造や統計学的観点から学習難易度をなるべく下げずに設定する方法を検討してきた．これまでの研究で，問題空間の分割状況の保存と細分化，距離空間の事前学習，バンディットアルゴリズムによる探索と活用のバランス，ベイズ推定といった観点からぞれぞれ強化学習や進化計算の柔軟性を高めることができた．また，強化学習における時間の分節化についても，過去の学習結果を利用できるような再分割をしていく必要があるが，こちらは一次元の最適化問題であり，ランダム探索，学習率をベースとするシンプルな最適化手法で良いことが確認できている．目標とする完全オンライン型の学習が可能になってきたと考えている．
Strategy for Future Research Activity	本年度はベータ分布伝搬型深層強化学習の分析と集団外探索を効率的に組み込んだ差分進化アルゴリズムの改良に関する研究を中心に進めて行く．それぞれ国際会議報告する予定である．
Causes of Carryover	今年度開発した強化学習手法と差分進化アルゴリズムの性能が想定よりも良く，より詳細な分析をして発表する方が良いと判断したため．論文費用，国際・国内会議での発表費用，計算機とソフトの更新費用として使用する計画である．

Research Products
(6 results)

All 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results) (of which Invited: 1 results)

[Journal Article] Additional Out-group Search for JADE2022
- Author(s)
  Y. Miyahira, A. Notsu
- Journal Title
  
  Integrated Uncertainty in Knowledge Modelling and Decision Making
  
  Volume: 9 Pages: 105-116
- DOI
  10.1007/978-3-030-98018-4
- Peer Reviewed
[Journal Article] A Study on Pre-Learning of State Similarity for Deep Reinforcement Learning2021
- Author(s)
  K. Yasunaga, A. Notsu, S. Ubukata, K. Honda
- Journal Title
  
  Proc. of 22nd International Symposium on Advanced Intelligent Systems
  
  Volume: G01-2 Pages: 7-16
- Peer Reviewed
[Presentation] 差分進化におけるパラメータのバンディットアルゴリズムによる適応的選択2021
- Author(s)
  宮平裕一，野津亮，本多克宏，生方誠希
- Organizer
  第65回システム制御情報学会研究発表講演会
[Presentation] 状態経験数の近似を併用した深層強化学習2021
- Author(s)
  安永恭平, 野津亮, 生方誠希, 本多克宏
- Organizer
  第37回ファジィシステムシンポジウム
[Presentation] JADEに対する集団外探索の追加2021
- Author(s)
  宮平裕一, 野津亮, 生方誠希, 本多克宏
- Organizer
  インテリジェント・システム・シンポジウム2021
[Presentation] 低コストな進化計算や強化学習のアルゴリズムの提案に向けて2021
- Author(s)
  野津亮
- Organizer
  インテリジェント・システム・シンポジウム2021
- Invited

2021 Fiscal Year Research-status Report

完全オンライン型強化学習システムにおける時間と空間の分節化

Principal Investigator

野津 亮 大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Additional Out-group Search for JADE2022

Author(s)

Journal Title

DOI

[Journal Article] A Study on Pre-Learning of State Similarity for Deep Reinforcement Learning2021

Author(s)

Journal Title

[Presentation] 差分進化におけるパラメータのバンディットアルゴリズムによる適応的選択2021

Author(s)

Organizer

[Presentation] 状態経験数の近似を併用した深層強化学習2021

Author(s)

Organizer

[Presentation] JADEに対する集団外探索の追加2021

Author(s)

Organizer

[Presentation] 低コストな進化計算や強化学習のアルゴリズムの提案に向けて2021

Author(s)

Organizer

野津亮大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)