2022 Fiscal Year Research-status Report

強化学習における政策・時空間・ハイパーパラメータの分節化と最適化，その統合

Research Project

Project/Area Number	22K12182
Research Institution	Osaka Metropolitan University
Principal Investigator	野津亮大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
Co-Investigator(Kenkyū-buntansha)	生方誠希大阪公立大学, 大学院情報学研究科, 准教授 (10755698) 本多克宏大阪公立大学, 大学院情報学研究科, 教授 (80332964)
Project Period (FY)	2022-04-01 – 2026-03-31
Keywords	強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム
Outline of Annual Research Achievements	深層強化学習において，ハイパーパラメータの設定がどのような影響を与えるかについて実験・検討し，その結果に基づき，異なるハイパーパラメータを持つ複数のニューラルネットワークを並行して学習させ，その都度成績の良いものを採用する手法を開発した．事前実験でハイパーパラメータによっては初期探索速度が速いものや逆に最終的な精度が高いものなどがあることが確認されたため，どのパラメータが一番良いかを選定するのではなくて，並列に学習させ，出力はその都度良いものを選択するという手法を提案した．意外な結果としては，ニューラルネットワークが学習に必要なパラメータ数を持っている場合，ある意味適当に選んだ他のネットワークの出力でもそのネットワークの学習に良い影響を与えることが多いことであった．逆に統計的に学習効率を最大化させようとする手法を用いてネットワークを選択すると全体として探索度合いが高くなってしまうため，最終的な成績は悪いということが分かった．また，強化学習のハイパーパラメータ最適化に向けたアルゴリズム開発では，新しいパラメータを発掘するために，探索領域の拡張を自ら行う手法を検討し，良い精度を出すことを確認した．具体的に，以前提案したアルゴリズムの設定パラメータを削減しつつも良い探索精度を出すことができた．実験では，領域外探索の距離とタイミングについて複数のパターンを調査し，遠くの距離を探索させる頻度は徐々小さくすべきであるということと，探索点群の更新頻度が半分以上の時に遠くの距離を探索させるのか，半分以下の時に探索させるのかで精度の向上に与える質的な違いが明らかになり，それを利用した手法を開発することができた．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 提案したアルゴリズムの実験結果も良好であり，論文掲載や国際会議発表などで成果を挙げることができたため．
Strategy for Future Research Activity	故意に成績の悪いハイパーパラメータを持つ強化学習器が混ざっていても頑強な学習を可能とし，深層強化学習の並列進化アルゴリズムの開発を行う．それぞれの学習器から次の世代のハイパーパラメータを生成し，選択する際に，適者生存させることと多様性の維持をどうバランス取るかが一つ当面の課題になると思われる．また，引き続き，純粋な最適化アルゴリズムの研究も行う．適応的に探索点数を調節できるアルゴリズムをクラスタリングという観点から開発する予定である．
Causes of Carryover	新型コロナウィルスの感染状況の悪化により国際会議発表がオンライン参加に変更になったため

Research Products
(4 results)

All 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] Addition of Out-of-Population Search in JADE2023
- Author(s)
  MIYAHIRA Yuichi、IGUCHI Makishi、NOTSU Akira、HONDA Katsuhiro
- Journal Title
  
  Journal of Japan Society for Fuzzy Theory and Intelligent Informatics
  
  Volume: 35 Pages: 532～537
- DOI
  10.3156/jsoft.35.1_532
- Peer Reviewed
[Journal Article] Deep Reinforcement Learning Combined with Approximation of Number of State Experiences2022
- Author(s)
  M. Iguchi, A. Notsu, K. Yasunaga, S. Ubukata, K. Honda
- Journal Title
  
  Proc. of 2022 International Conference on Fuzzy Theory and Its Applications
  
  Volume: 1 Pages: #0012 6pages
- Peer Reviewed
[Journal Article] Addition of Out-of-population Search Based on the Rate of Solution Updates in JADE2022
- Author(s)
  Y. Miyahira, A. Notsu, K. Honda
- Journal Title
  
  Proc. of 2022 International Conference on Fuzzy Theory and Its Applications
  
  Volume: 1 Pages: #0077 6pages
- Peer Reviewed
[Presentation] JADEにおける解の更新割合に基づいた集団外探索の追加2022
- Author(s)
  宮平裕一, 野津亮, 本多克宏
- Organizer
  日本知能情報ファジィ学会

2022 Fiscal Year Research-status Report

強化学習における政策・時空間・ハイパーパラメータの分節化と最適化，その統合

Principal Investigator

野津 亮 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Addition of Out-of-Population Search in JADE2023

Author(s)

Journal Title

DOI

[Journal Article] Deep Reinforcement Learning Combined with Approximation of Number of State Experiences2022

Author(s)

Journal Title

[Journal Article] Addition of Out-of-population Search Based on the Rate of Solution Updates in JADE2022

Author(s)

Journal Title

[Presentation] JADEにおける解の更新割合に基づいた集団外探索の追加2022

Author(s)

Organizer

野津亮大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)