• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

完全オンライン型強化学習システムにおける時間と空間の分節化

Research Project

Project/Area Number 18K11473
Research InstitutionOsaka Prefecture University

Principal Investigator

野津 亮  大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)

Co-Investigator(Kenkyū-buntansha) 生方 誠希  大阪府立大学, 工学(系)研究科(研究院), 准教授 (10755698)
本多 克宏  大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
Project Period (FY) 2018-04-01 – 2023-03-31
Keywords強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム
Outline of Annual Research Achievements

本年度の大きな進展としては,ベータ分布伝搬型強化学習を深層強化学習向けに調整し,学習速度を飛躍的に(設定した実験では二倍以上)速めることに成功したことと,差分進化アルゴリズムにおける探索点群の外の効率的な探索方法を提案し,有効性を確認したことをあげることができる.
本研究課題では強化学習における行動選択の政策も再検討の対象となるが,パラメータの追加を極力減らしつつもより効率的な探索ができる政策を開発していく必要がある.ベータ分布伝搬型強化学習とは報酬の期待値の分布をベータ分布で表現・学習するものであり,報酬の上限や下限が決まっている問題に対して効果を発揮するものとして以前我々が開発した手法である.今回はこれを深層強化学習向けに構築し直し,その有用性を確認した.
また,差分進化アルゴリズムの改良も行った.一般に進化計算アルゴリズムにおいて闇雲に集団外探索を追加すると探索効率を大きく落とすことになる.提案法では,ネルダーミード法をベースにしたが,どれくらいの距離離れたところを探索すべきかについては,差分進化の挙動を考慮して幾何分布によるサンプリングによって決定させることとした.これにより探索効率をほとんど落とさずに外側に解が存在した場合に対応させることに成功した.
さらに派生的な研究として,確率バイアスや気分といった心理学的な要素が(強化学習などの)問題に対してどれくらい影響するのかについても調査した.複雑な意思決定になると一般的に用いられているアルゴリズム(選択問題におけるεグリーディ政策,囚人のジレンマ問題におけるしっぺ返し)よりもバイアスがある方が安定したりすることを明らかにし,気象情報による株価変動予測などの精度向上などについても確認した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究では,強化学習や進化計算における明示的,あるいは暗黙的なパラメータ設定の自動化が主な具体的目標となる.一般的にパラメータの数が多いほど学習効率が落ちたり,学習が難しくなるが,本研究では,問題空間の構造や統計学的観点から学習難易度をなるべく下げずに設定する方法を検討してきた.
これまでの研究で,問題空間の分割状況の保存と細分化,距離空間の事前学習,バンディットアルゴリズムによる探索と活用のバランス,ベイズ推定といった観点からぞれぞれ強化学習や進化計算の柔軟性を高めることができた.また,強化学習における時間の分節化についても,過去の学習結果を利用できるような再分割をしていく必要があるが,こちらは一次元の最適化問題であり,ランダム探索,学習率をベースとするシンプルな最適化手法で良いことが確認できている.目標とする完全オンライン型の学習が可能になってきたと考えている.

Strategy for Future Research Activity

本年度はベータ分布伝搬型深層強化学習の分析と集団外探索を効率的に組み込んだ差分進化アルゴリズムの改良に関する研究を中心に進めて行く.それぞれ国際会議報告する予定である.

Causes of Carryover

今年度開発した強化学習手法と差分進化アルゴリズムの性能が想定よりも良く,より詳細な分析をして発表する方が良いと判断したため.
論文費用,国際・国内会議での発表費用,計算機とソフトの更新費用として使用する計画である.

  • Research Products

    (6 results)

All 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results) (of which Invited: 1 results)

  • [Journal Article] Additional Out-group Search for JADE2022

    • Author(s)
      Y. Miyahira, A. Notsu
    • Journal Title

      Integrated Uncertainty in Knowledge Modelling and Decision Making

      Volume: 9 Pages: 105-116

    • DOI

      10.1007/978-3-030-98018-4

    • Peer Reviewed
  • [Journal Article] A Study on Pre-Learning of State Similarity for Deep Reinforcement Learning2021

    • Author(s)
      K. Yasunaga, A. Notsu, S. Ubukata, K. Honda
    • Journal Title

      Proc. of 22nd International Symposium on Advanced Intelligent Systems

      Volume: G01-2 Pages: 7-16

    • Peer Reviewed
  • [Presentation] 差分進化におけるパラメータのバンディットアルゴリズムによる適応的選択2021

    • Author(s)
      宮平 裕一,野津 亮,本多 克宏,生方 誠希
    • Organizer
      第65回システム制御情報学会研究発表講演会
  • [Presentation] 状態経験数の近似を併用した深層強化学習2021

    • Author(s)
      安永 恭平, 野津 亮, 生方 誠希, 本多 克宏
    • Organizer
      第37回ファジィシステムシンポジウム
  • [Presentation] JADEに対する集団外探索の追加2021

    • Author(s)
      宮平 裕一, 野津 亮, 生方 誠希, 本多 克宏
    • Organizer
      インテリジェント・システム・シンポジウム2021
  • [Presentation] 低コストな進化計算や強化学習のアルゴリズムの提案に向けて2021

    • Author(s)
      野津 亮
    • Organizer
      インテリジェント・システム・シンポジウム2021
    • Invited

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi