強化学習における政策・時空間・ハイパーパラメータの分節化と最適化，その統合

研究課題

研究課題/領域番号	22K12182
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61040:ソフトコンピューティング関連
研究機関	大阪公立大学
研究代表者	野津亮大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
研究分担者	生方誠希大阪公立大学, 大学院情報学研究科, 准教授 (10755698) 本多克宏大阪公立大学, 大学院情報学研究科, 教授 (80332964)
研究期間 (年度)	2022-04-01 – 2026-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	3,640千円 (直接経費: 2,800千円、間接経費: 840千円) 2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
キーワード	強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム / 概念形成 / 最適化
研究開始時の研究の概要	強化学習における合理的な概念形成方法の開発と，必要試行回数・データ数の最小化が目的であり，ニューラルネットワーク構造，状態空間・時間の分割，行動選択政策，報酬設計，事前学習などを進化計算によって学習と同時・並列的に最適化しその達成を目指す．
研究実績の概要	深層強化学習において，ハイパーパラメータの設定がどのような影響を与えるかについて実験・検討し，その結果に基づき，異なるハイパーパラメータを持つ複数のニューラルネットワークを並行して学習させ，その都度成績の良いものを採用する手法を開発した．事前実験でハイパーパラメータによっては初期探索速度が速いものや逆に最終的な精度が高いものなどがあることが確認されたため，どのパラメータが一番良いかを選定するのではなくて，並列に学習させ，出力はその都度良いものを選択するという手法を提案した．意外な結果としては，ニューラルネットワークが学習に必要なパラメータ数を持っている場合，ある意味適当に選んだ他のネットワークの出力でもそのネットワークの学習に良い影響を与えることが多いことであった．逆に統計的に学習効率を最大化させようとする手法を用いてネットワークを選択すると全体として探索度合いが高くなってしまうため，最終的な成績は悪いということが分かった．また，強化学習のハイパーパラメータ最適化に向けたアルゴリズム開発では，新しいパラメータを発掘するために，探索領域の拡張を自ら行う手法を検討し，良い精度を出すことを確認した．具体的に，以前提案したアルゴリズムの設定パラメータを削減しつつも良い探索精度を出すことができた．実験では，領域外探索の距離とタイミングについて複数のパターンを調査し，遠くの距離を探索させる頻度は徐々小さくすべきであるということと，探索点群の更新頻度が半分以上の時に遠くの距離を探索させるのか，半分以下の時に探索させるのかで精度の向上に与える質的な違いが明らかになり，それを利用した手法を開発することができた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由提案したアルゴリズムの実験結果も良好であり，論文掲載や国際会議発表などで成果を挙げることができたため．
今後の研究の推進方策	故意に成績の悪いハイパーパラメータを持つ強化学習器が混ざっていても頑強な学習を可能とし，深層強化学習の並列進化アルゴリズムの開発を行う．それぞれの学習器から次の世代のハイパーパラメータを生成し，選択する際に，適者生存させることと多様性の維持をどうバランス取るかが一つ当面の課題になると思われる．また，引き続き，純粋な最適化アルゴリズムの研究も行う．適応的に探索点数を調節できるアルゴリズムをクラスタリングという観点から開発する予定である．

報告書

(1件)

2022 実施状況報告書

研究成果

(4件)

すべて 2023 2022

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)

[雑誌論文] JADEにおける集団外への探索の追加2023
- 著者名/発表者名
  MIYAHIRA Yuichi、IGUCHI Makishi、NOTSU Akira、HONDA Katsuhiro
- 雑誌名
  
  知能と情報
  
  巻: 35 号: 1 ページ: 532-537
- DOI
  10.3156/jsoft.35.1_532
- ISSN
  1347-7986, 1881-7203
- 年月日
  2023-02-15
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Deep Reinforcement Learning Combined with Approximation of Number of State Experiences2022
- 著者名/発表者名
  M. Iguchi, A. Notsu, K. Yasunaga, S. Ubukata, K. Honda
- 雑誌名
  
  Proc. of 2022 International Conference on Fuzzy Theory and Its Applications
  
  巻: 1
- NAID
  130008143592
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Addition of Out-of-population Search Based on the Rate of Solution Updates in JADE2022
- 著者名/発表者名
  Y. Miyahira, A. Notsu, K. Honda
- 雑誌名
  
  Proc. of 2022 International Conference on Fuzzy Theory and Its Applications
  
  巻: 1
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[学会発表] JADEにおける解の更新割合に基づいた集団外探索の追加2022
- 著者名/発表者名
  宮平裕一, 野津亮, 本多克宏
- 学会等名
  日本知能情報ファジィ学会
- 関連する報告書
  2022 実施状況報告書

強化学習における政策・時空間・ハイパーパラメータの分節化と最適化，その統合

研究代表者

野津 亮 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)

3,640千円 (直接経費: 2,800千円、間接経費: 840千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] JADEにおける集団外への探索の追加2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Deep Reinforcement Learning Combined with Approximation of Number of State Experiences2022

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Addition of Out-of-population Search Based on the Rate of Solution Updates in JADE2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] JADEにおける解の更新割合に基づいた集団外探索の追加2022

著者名/発表者名

学会等名

関連する報告書

野津亮大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)