2022 Fiscal Year Annual Research Report

Segmentation of Time and Space in a Fully Online Reinforcement Learning System

Research Project

Project/Area Number	18K11473
Research Institution	Osaka Metropolitan University
Principal Investigator	野津亮大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
Co-Investigator(Kenkyū-buntansha)	生方誠希大阪公立大学, 大学院情報学研究科, 准教授 (10755698) 本多克宏大阪公立大学, 大学院情報学研究科, 教授 (80332964)
Project Period (FY)	2018-04-01 – 2023-03-31
Keywords	強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム
Outline of Annual Research Achievements	最終年度では，複数の深層強化学習ネットワークを並列的に学習させ，最適な特徴量を抽出しやすいニューラルネットワークを生成する手法を開発，検討した．複数のネットワークに経験を共有させることによって探索的な行動政策がそれほど必要なくなること，計算コストを抑えるために経験共有をしない場合は，行動を決定するネットワークの選択をするバンディットアルゴリズムに結果が大きく依存することなどが新しい知見として得られた．また，良い分節化を得られるネットワークを得るための，進化計算アルゴリズムの開発においてはアルゴリズムの簡略化に成功し，より直感的でわかりやすいパラメータの設定によって探索効率を上げることに成功した．具体的には適応的差分進化JADE手法に領域外探索を加えるのだが，その距離を自動的に決めて，パラメータとしては，領域外探索をする時の探索成功率というシンプルなもののみに絞ることができた．研究期間全体を通じて，空間・時間の分節化，適切な強化学習の選択についてアルゴリズムを開発し，研究発表することができた．また，派生的な研究として，これらを適応的に進化させるための進化計算アルゴリズムを大きな突然変異を組み込んだ形で研究発表できた．当初，本研究課題計画からの変更点としては，深層強化学習を扱うことにした点が大きい．研究計画を立てた段階では成長型自己組織化マップの多層化を検討していたが，近年のAI技術の発展に伴い，ディープラーニングが注目され，それらとの明確な区別がつけづらくなった．加えて，必要とするメモリ量を減らすことにそれほど大きな意味も無くなってきたということで，シフトしたが，漸近最適戦略や最適化を深層強化学習に適用し成果を上げることができたのは非常に大きい学術的な意義があったと考えている．

Research Products
(4 results)

All 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] Addition of Out-of-Population Search in JADE2023
- Author(s)
  MIYAHIRA Yuichi、IGUCHI Makishi、NOTSU Akira、HONDA Katsuhiro
- Journal Title
  
  Journal of Japan Society for Fuzzy Theory and Intelligent Informatics
  
  Volume: 35 Pages: 532～537
- DOI
  10.3156/jsoft.35.1_532
- Peer Reviewed
[Journal Article] Deep Reinforcement Learning Combined with Approximation of Number of State Experiences2022
- Author(s)
  M. Iguchi, A. Notsu, K. Yasunaga, S. Ubukata, K. Honda
- Journal Title
  
  Proc. of 2022 International Conference on Fuzzy Theory and Its Applications
  
  Volume: 1 Pages: #0012 6pages
- Peer Reviewed
[Journal Article] Addition of Out-of-population Search Based on the Rate of Solution Updates in JADE2022
- Author(s)
  Y. Miyahira, A. Notsu, K. Honda
- Journal Title
  
  Proc. of 2022 International Conference on Fuzzy Theory and Its Applications
  
  Volume: 1 Pages: #0077 6Pages
- Peer Reviewed
[Presentation] JADEにおける解の更新割合に基づいた集団外探索の追加2022
- Author(s)
  宮平裕一, 野津亮, 本多克宏
- Organizer
  日本知能情報ファジィ学会

2022 Fiscal Year Annual Research Report

Segmentation of Time and Space in a Fully Online Reinforcement Learning System

Principal Investigator

野津 亮 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)

Research Products

[Journal Article] Addition of Out-of-Population Search in JADE2023

Author(s)

Journal Title

DOI

[Journal Article] Deep Reinforcement Learning Combined with Approximation of Number of State Experiences2022

Author(s)

Journal Title

[Journal Article] Addition of Out-of-population Search Based on the Rate of Solution Updates in JADE2022

Author(s)

Journal Title

[Presentation] JADEにおける解の更新割合に基づいた集団外探索の追加2022

Author(s)

Organizer

野津亮大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)