• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

完全オンライン型強化学習システムにおける時間と空間の分節化

Research Project

Project/Area Number 18K11473
Research InstitutionOsaka Prefecture University

Principal Investigator

野津 亮  大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)

Co-Investigator(Kenkyū-buntansha) 生方 誠希  大阪府立大学, 工学(系)研究科(研究院), 准教授 (10755698)
本多 克宏  大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
Project Period (FY) 2018-04-01 – 2022-03-31
Keywords強化学習 / 自己組織化マップ / オンライン学習 / クラスタリング / 最適化アルゴリズム / バンディットアルゴリズム
Outline of Annual Research Achievements

本年度は,強化学習において,学習速度を落とすことなく,自己組織化マップを用いて空間を動的に分節化する方法についての論文を掲載させることができた.一般的には入力の距離情報等を用いて空間を分割させる,もしくは関数近似することが多いが,直前の状態からの変化を記録して自己組織化マップで推定させることによって,単に空間を均等に分割することでは獲得できない,適切な状態空間の分割に成功し,学習効率を高めることができた.発展的な課題として,状態分割が変化する中で各状態をどのくらい探索してきたのかを推定できないと,探索的もしくは活用的な行動選択のどちらをすれば良いのかを決定することが難しいという問題が浮かび上がってきた.状態空間を分割しつつそれまでの探索回数をカウントしなおすという作業をすることは,実用的でないと考え,現在は経験した状態かどうかという学習と探索回数を表現する関数モデルの二つを使い,深層強化学習でも行動のリグレットを最小化するような手法を実験中である.
また本年度は,時間と空間の分割を最適化するためのアルゴリズムとして,適応的にランダムさを変更させる最適化アルゴリズムを開発することができた.基本的に全く特徴や性能が異なるいくつかの手法を使い分けることについてはまだ未知の部分も多いが,従来は全く役に立たないようなパラメータ設定も他手法を組み合わせることによって精度や速度を改善することができることを明らかにすることができた.単にアルゴリズムを混ぜ合わせるだけでは探索速度が低下してしまうので,それを抑える方法をいくつか発表し,現在も研究を進めている.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

新型コロナウィルス感染拡大の影響により,研究環境の変化や研究時間の確保の困難,負荷が大きくなりPCが故障したりしたため研究に遅れが生じている.オンラインでの研究や教育活動により,研究実績でも触れたような新しい課題やアイディアに取り組み,いくつか実験成果が上がっている段階である.

Strategy for Future Research Activity

本年度は,深層強化学習プロセス全体のリグレットの最小化を達成するための政策・学習アルゴリズム,探索速度を低下させずに大域的最適解を高確率で捉えるための最適化アルゴリズムのハイブリッド化について研究を進める.

Causes of Carryover

コロナウィルス感染拡大に伴い,研究・教育・学会活動をスケジュール通り行うことが困難になったため
主にオンライン対応の研究環境整備,国際会議参加費2件以上,国内会議参加費2件以上,論文校正・投稿費として使用する

  • Research Products

    (6 results)

All 2020 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 1 results) Presentation (2 results) Remarks (1 results)

  • [Journal Article] Online state space generation by a growing self-organizing map and differential learning for reinforcement learning2020

    • Author(s)
      A. Notsu, K. Yasuda, S. Ubukata, K. Honda
    • Journal Title

      Applied Soft Computing

      Volume: 97 Pages: 1-9

    • DOI

      10.1016/j.asoc.2020.106723

    • Peer Reviewed / Open Access
  • [Journal Article] Proposal of Adaptive Randomness in Differential Evolution2020

    • Author(s)
      J. Tsubamoto, A. Notsu, S. Ubukata, K. Honda
    • Journal Title

      Proc. of 2020 IEEE Congress on Evolutionary Computation

      Volume: 1 Pages: 1-8

    • Peer Reviewed
  • [Journal Article] Randomness Selection in Differential Evolution Using Thompson Sampling2020

    • Author(s)
      A. Notsu, J. Tsubamoto, Y. Miyahira, S. Ubukata, K. Honda
    • Journal Title

      Proc. of Joint 11th International Conference on Soft Computing and Intelligent Systems and 21st International Symposium on Advanced Intelligent Systems

      Volume: 1 Pages: 351-355

    • Peer Reviewed
  • [Presentation] 深層強化学習のための状態類似度の事前学習についての一考察2020

    • Author(s)
      安永 恭平,野津 亮,生方 誠希,本多 克宏
    • Organizer
      第64回システム制御情報学会研究発表講演会
  • [Presentation] ランダムネス適応型差分進化の提案2020

    • Author(s)
      鍔本 純也,野津 亮,生方 誠希,本多 克宏
    • Organizer
      第36回ファジィシステムシンポジウム
  • [Remarks] 人間情報システム研究グループ

    • URL

      http://www.cs.osakafu-u.ac.jp/hi/index.html

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi