2018 年度実施状況報告書

完全オンライン型強化学習システムにおける時間と空間の分節化

研究課題

研究課題/領域番号	18K11473
研究機関	大阪府立大学
研究代表者	野津亮大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)
研究分担者	生方誠希大阪府立大学, 工学(系)研究科(研究院), 助教 (10755698) 本多克宏大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	強化学習 / 最適化アルゴリズム / クラスタリング / オンライン学習
研究実績の概要	本年度は，強化学習における空間と時間の分節化ということで，まず，入力差分学習と成長型自己組織化マップを用いた強化学習における，学習周期の動的な最適化について研究を進めた．徐々に周期を大きくしていく・小さくしていく，または，学習がうまくいかないときにランダムに周期を変更する方法などについて研究を進め，どの手法でも学習可能であることを確認した．ランダムに周期を変更する方法は，倒立振り子問題ではパラメータがあらかじめ設定されているものと比べて平均的に倍の時間で学習を完了することができていた．一方で，問題点としては，周期を徐々に変化させる場合の拡大・収縮率のパラメータによっては状態遷移の変化が大きすぎて最適な政策を学習できず，周期が変わり続けること，学習が成功したという状態を定義することが容易であれば良いが，そうでないときにどうするかということが明らかになった．これらは国内会議・国際会議にて発表した．さらに，最適化アルゴリズムについて，収束速度という観点から改善する方法を考案し，その有効性を確認した．最適化アルゴリズムを状況に応じて適応的に使い分けることは以前から研究されているが，解集団の収束速度を統計的な収束速度と比較して使い分ける手法を開発し，その有効性を明らかにした．また，解集団の初期配置に最適化が大きく依存していることを解消するために統計的な視点から解候補に振動を加える方法を提案することができた．国内会議・国際会議にて発表した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由強化学習における空間と時間の分節化については予定通り研究を進めており，研究発表できている．また，最適化アルゴリズムを切り替えるための判断基準を新しく構築することができた．
今後の研究の推進方策	強化学習における時間の分節化については，新しく，黄金分割法などのアルゴリズムも利用していく．また，強化学習の全てのパラメータに最適化アルゴリズムを適用する方法を提案することをこの研究課題の大きな目標の一つとして考えて，来年度はその足がかりとなるモデルを構築し，実験を行う．さらに，深層強化学習における状態の時空間の分節化についてはパラメータ調節に学習結果が大きく依存する可能性があるため，課題を変更しても適応し，オンライン学習をうまく進めさせるための適応アルゴリズムを検討し，実験をする．前年度新しく構築した最適化アルゴリズムについては改善と具体的応用について研究を進める．
次年度使用額が生じた理由	計画していた論文投稿費用（２本）の支払いが遅れたため

研究成果
(6件)

すべて 2018 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件) 備考 (1件)

[雑誌論文] Optimization of Learning Cycles in Online Reinforcement Learning Systems2018
- 著者名/発表者名
  A. Notsu, K. Yasuda, S. Ubukata, K. Honda
- 雑誌名
  
  Proc. of 2018 IEEE International Conference on Systems, Man, and Cybernetics
  
  巻: #12428 ページ: 3520-3524
- 査読あり
[雑誌論文] Setting of Candidate Solutions Considering Confidence Intervals in Differential Evolution2018
- 著者名/発表者名
  A. Notsu, M. Sakakibara, S. Ubukata, K. Honda
- 雑誌名
  
  Proc. of 2018 International Conference on Fuzzy Theory and Its Applications
  
  巻: #T1a-2 ページ: 7-11
- 査読あり
[学会発表] 成長型自己組織化マップによる強化学習システムについての考察2018
- 著者名/発表者名
  安田功嗣，野津亮，生方誠希，本多克宏
- 学会等名
  第62回システム制御情報学会研究発表講演会
[学会発表] 差分進化における信頼区間を考慮した解候補の設定2018
- 著者名/発表者名
  野津亮，榊原雅也，生方誠希，本多克宏
- 学会等名
  第34回ファジィシステムシンポジウム
[学会発表] 強化学習システムにおける学習周期の無作為抽出による適応2018
- 著者名/発表者名
  野津亮，安田功嗣，生方誠希，本多克宏
- 学会等名
  第28回インテリジェント・システム・シンポジウム
[備考] http://www.cs.osakafu-u.ac.jp/hi/publications.html

2018 年度 実施状況報告書

完全オンライン型強化学習システムにおける時間と空間の分節化

研究代表者

野津 亮 大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Optimization of Learning Cycles in Online Reinforcement Learning Systems2018

著者名/発表者名

雑誌名

[雑誌論文] Setting of Candidate Solutions Considering Confidence Intervals in Differential Evolution2018

著者名/発表者名

雑誌名

[学会発表] 成長型自己組織化マップによる強化学習システムについての考察2018

著者名/発表者名

学会等名

[学会発表] 差分進化における信頼区間を考慮した解候補の設定2018

著者名/発表者名

学会等名

[学会発表] 強化学習システムにおける学習周期の無作為抽出による適応2018

著者名/発表者名

学会等名

[備考] http://www.cs.osakafu-u.ac.jp/hi/publications.html

2018 年度実施状況報告書

野津亮大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)