2020 年度実施状況報告書

完全オンライン型強化学習システムにおける時間と空間の分節化

研究課題

研究課題/領域番号	18K11473
研究機関	大阪府立大学
研究代表者	野津亮大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)
研究分担者	生方誠希大阪府立大学, 工学(系)研究科(研究院), 准教授 (10755698) 本多克宏大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
研究期間 (年度)	2018-04-01 – 2022-03-31
キーワード	強化学習 / 自己組織化マップ / オンライン学習 / クラスタリング / 最適化アルゴリズム / バンディットアルゴリズム
研究実績の概要	本年度は，強化学習において，学習速度を落とすことなく，自己組織化マップを用いて空間を動的に分節化する方法についての論文を掲載させることができた．一般的には入力の距離情報等を用いて空間を分割させる，もしくは関数近似することが多いが，直前の状態からの変化を記録して自己組織化マップで推定させることによって，単に空間を均等に分割することでは獲得できない，適切な状態空間の分割に成功し，学習効率を高めることができた．発展的な課題として，状態分割が変化する中で各状態をどのくらい探索してきたのかを推定できないと，探索的もしくは活用的な行動選択のどちらをすれば良いのかを決定することが難しいという問題が浮かび上がってきた．状態空間を分割しつつそれまでの探索回数をカウントしなおすという作業をすることは，実用的でないと考え，現在は経験した状態かどうかという学習と探索回数を表現する関数モデルの二つを使い，深層強化学習でも行動のリグレットを最小化するような手法を実験中である．また本年度は，時間と空間の分割を最適化するためのアルゴリズムとして，適応的にランダムさを変更させる最適化アルゴリズムを開発することができた．基本的に全く特徴や性能が異なるいくつかの手法を使い分けることについてはまだ未知の部分も多いが，従来は全く役に立たないようなパラメータ設定も他手法を組み合わせることによって精度や速度を改善することができることを明らかにすることができた．単にアルゴリズムを混ぜ合わせるだけでは探索速度が低下してしまうので，それを抑える方法をいくつか発表し，現在も研究を進めている．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由新型コロナウィルス感染拡大の影響により，研究環境の変化や研究時間の確保の困難，負荷が大きくなりPCが故障したりしたため研究に遅れが生じている．オンラインでの研究や教育活動により，研究実績でも触れたような新しい課題やアイディアに取り組み，いくつか実験成果が上がっている段階である．
今後の研究の推進方策	本年度は，深層強化学習プロセス全体のリグレットの最小化を達成するための政策・学習アルゴリズム，探索速度を低下させずに大域的最適解を高確率で捉えるための最適化アルゴリズムのハイブリッド化について研究を進める．
次年度使用額が生じた理由	コロナウィルス感染拡大に伴い，研究・教育・学会活動をスケジュール通り行うことが困難になったため主にオンライン対応の研究環境整備，国際会議参加費2件以上，国内会議参加費2件以上，論文校正・投稿費として使用する

研究成果
(6件)

すべて 2020 その他

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 1件) 学会発表 (2件) 備考 (1件)

[雑誌論文] Online state space generation by a growing self-organizing map and differential learning for reinforcement learning2020
- 著者名/発表者名
  A. Notsu, K. Yasuda, S. Ubukata, K. Honda
- 雑誌名
  
  Applied Soft Computing
  
  巻: 97 ページ: 1-9
- DOI
  10.1016/j.asoc.2020.106723
- 査読あり / オープンアクセス
[雑誌論文] Proposal of Adaptive Randomness in Differential Evolution2020
- 著者名/発表者名
  J. Tsubamoto, A. Notsu, S. Ubukata, K. Honda
- 雑誌名
  
  Proc. of 2020 IEEE Congress on Evolutionary Computation
  
  巻: 1 ページ: 1-8
- 査読あり
[雑誌論文] Randomness Selection in Differential Evolution Using Thompson Sampling2020
- 著者名/発表者名
  A. Notsu, J. Tsubamoto, Y. Miyahira, S. Ubukata, K. Honda
- 雑誌名
  
  Proc. of Joint 11th International Conference on Soft Computing and Intelligent Systems and 21st International Symposium on Advanced Intelligent Systems
  
  巻: 1 ページ: 351-355
- 査読あり
[学会発表] 深層強化学習のための状態類似度の事前学習についての一考察2020
- 著者名/発表者名
  安永恭平，野津亮，生方誠希，本多克宏
- 学会等名
  第64回システム制御情報学会研究発表講演会
[学会発表] ランダムネス適応型差分進化の提案2020
- 著者名/発表者名
  鍔本純也，野津亮，生方誠希，本多克宏
- 学会等名
  第36回ファジィシステムシンポジウム
[備考] 人間情報システム研究グループ
- URL
  http://www.cs.osakafu-u.ac.jp/hi/index.html

2020 年度 実施状況報告書

完全オンライン型強化学習システムにおける時間と空間の分節化

研究代表者

野津 亮 大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Online state space generation by a growing self-organizing map and differential learning for reinforcement learning2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Proposal of Adaptive Randomness in Differential Evolution2020

著者名/発表者名

雑誌名

[雑誌論文] Randomness Selection in Differential Evolution Using Thompson Sampling2020

著者名/発表者名

雑誌名

[学会発表] 深層強化学習のための状態類似度の事前学習についての一考察2020

著者名/発表者名

学会等名

[学会発表] ランダムネス適応型差分進化の提案2020

著者名/発表者名

学会等名

[備考] 人間情報システム研究グループ

URL

2020 年度実施状況報告書

野津亮大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)