2018 Fiscal Year Research-status Report

完全オンライン型強化学習システムにおける時間と空間の分節化

Research Project

Project/Area Number	18K11473
Research Institution	Osaka Prefecture University
Principal Investigator	野津亮大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)
Co-Investigator(Kenkyū-buntansha)	生方誠希大阪府立大学, 工学(系)研究科(研究院), 助教 (10755698) 本多克宏大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	強化学習 / 最適化アルゴリズム / クラスタリング / オンライン学習
Outline of Annual Research Achievements	本年度は，強化学習における空間と時間の分節化ということで，まず，入力差分学習と成長型自己組織化マップを用いた強化学習における，学習周期の動的な最適化について研究を進めた．徐々に周期を大きくしていく・小さくしていく，または，学習がうまくいかないときにランダムに周期を変更する方法などについて研究を進め，どの手法でも学習可能であることを確認した．ランダムに周期を変更する方法は，倒立振り子問題ではパラメータがあらかじめ設定されているものと比べて平均的に倍の時間で学習を完了することができていた．一方で，問題点としては，周期を徐々に変化させる場合の拡大・収縮率のパラメータによっては状態遷移の変化が大きすぎて最適な政策を学習できず，周期が変わり続けること，学習が成功したという状態を定義することが容易であれば良いが，そうでないときにどうするかということが明らかになった．これらは国内会議・国際会議にて発表した．さらに，最適化アルゴリズムについて，収束速度という観点から改善する方法を考案し，その有効性を確認した．最適化アルゴリズムを状況に応じて適応的に使い分けることは以前から研究されているが，解集団の収束速度を統計的な収束速度と比較して使い分ける手法を開発し，その有効性を明らかにした．また，解集団の初期配置に最適化が大きく依存していることを解消するために統計的な視点から解候補に振動を加える方法を提案することができた．国内会議・国際会議にて発表した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 強化学習における空間と時間の分節化については予定通り研究を進めており，研究発表できている．また，最適化アルゴリズムを切り替えるための判断基準を新しく構築することができた．
Strategy for Future Research Activity	強化学習における時間の分節化については，新しく，黄金分割法などのアルゴリズムも利用していく．また，強化学習の全てのパラメータに最適化アルゴリズムを適用する方法を提案することをこの研究課題の大きな目標の一つとして考えて，来年度はその足がかりとなるモデルを構築し，実験を行う．さらに，深層強化学習における状態の時空間の分節化についてはパラメータ調節に学習結果が大きく依存する可能性があるため，課題を変更しても適応し，オンライン学習をうまく進めさせるための適応アルゴリズムを検討し，実験をする．前年度新しく構築した最適化アルゴリズムについては改善と具体的応用について研究を進める．
Causes of Carryover	計画していた論文投稿費用（２本）の支払いが遅れたため

Research Products
(6 results)

All 2018 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (3 results) Remarks (1 results)

[Journal Article] Optimization of Learning Cycles in Online Reinforcement Learning Systems2018
- Author(s)
  A. Notsu, K. Yasuda, S. Ubukata, K. Honda
- Journal Title
  
  Proc. of 2018 IEEE International Conference on Systems, Man, and Cybernetics
  
  Volume: #12428 Pages: 3520-3524
- Peer Reviewed
[Journal Article] Setting of Candidate Solutions Considering Confidence Intervals in Differential Evolution2018
- Author(s)
  A. Notsu, M. Sakakibara, S. Ubukata, K. Honda
- Journal Title
  
  Proc. of 2018 International Conference on Fuzzy Theory and Its Applications
  
  Volume: #T1a-2 Pages: 7-11
- Peer Reviewed
[Presentation] 成長型自己組織化マップによる強化学習システムについての考察2018
- Author(s)
  安田功嗣，野津亮，生方誠希，本多克宏
- Organizer
  第62回システム制御情報学会研究発表講演会
[Presentation] 差分進化における信頼区間を考慮した解候補の設定2018
- Author(s)
  野津亮，榊原雅也，生方誠希，本多克宏
- Organizer
  第34回ファジィシステムシンポジウム
[Presentation] 強化学習システムにおける学習周期の無作為抽出による適応2018
- Author(s)
  野津亮，安田功嗣，生方誠希，本多克宏
- Organizer
  第28回インテリジェント・システム・シンポジウム
[Remarks] http://www.cs.osakafu-u.ac.jp/hi/publications.html

2018 Fiscal Year Research-status Report

完全オンライン型強化学習システムにおける時間と空間の分節化

Principal Investigator

野津 亮 大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Optimization of Learning Cycles in Online Reinforcement Learning Systems2018

Author(s)

Journal Title

[Journal Article] Setting of Candidate Solutions Considering Confidence Intervals in Differential Evolution2018

Author(s)

Journal Title

[Presentation] 成長型自己組織化マップによる強化学習システムについての考察2018

Author(s)

Organizer

[Presentation] 差分進化における信頼区間を考慮した解候補の設定2018

Author(s)

Organizer

[Presentation] 強化学習システムにおける学習周期の無作為抽出による適応2018

Author(s)

Organizer

[Remarks] http://www.cs.osakafu-u.ac.jp/hi/publications.html

野津亮大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)