研究課題
本年度は強化学習における状態空間のクラスタリングについて,成長型自己組織化マップをもちいることによってオンライン型で,かつ状態空間を人間が与える方法よりも速く学習させることができることを発見できた.従来のクラスタリング技術では学習中にクラスタリングを適用すると,新しい状態が観測されたときにそれまでの学習結果が壊れてしまうことがあった.成長型のアルゴリズムによって既存の学習結果を壊さずに状態空間を定義し,速い学習速度を保持することができ,かつ,必要最低限の計算量やメモリの確保で学習できることが確認できた.基礎的な研究については国内発表を終え,論文投稿を行った.また,漸近最適戦略を差分進化アルゴリズムに応用する研究を進めた.これは最適化問題における探索アルゴリズムの探索と活用のバランスを改善し,探索効率を大幅に改善するものである.従来法は初期探索の効率が悪いが,これは,次の探索点を決める際に良い解が得られそうなところを探索するのか,新しい情報を求めて別な場所を探索するのかの調節方法について統計的な視点からアルゴリズム化されていないためである.差分進化アルゴリズムをUCTアルゴリズムと融合させ,両者の長所を兼ね備えた探索アルゴリズムを提案した.これについて国際会議発表にてBest Paper Award を受賞した.研究期間全体を通じ,状態・行動空間のクラスタリングと漸近最適戦略により,オンライン型強化学習アルゴリズムを大きく発展させることができた.近年,バッチ型の強化学習が注目を浴びることが多いが,オンライン型で柔軟で,計算量が少なく高価な計算機を必要としない学習アルゴリズムを開発することによって,機械学習の適用範囲を大きく広げることができた.また,人間の持つしなやかで適応的な学習能力を再現する一つの認知モデルを提案できたことは心理学的にも重要な意味を持っていると考えている.
すべて 2018 2017 その他
すべて 雑誌論文 (6件) (うち査読あり 6件、 オープンアクセス 1件) 学会発表 (7件) 備考 (1件)
International Journal of Approximate Reasoning
巻: 95 ページ: 185~193
10.1016/j.ijar.2018.02.005
Advances in Fuzzy Systems
巻: 2017 ページ: 1-8
10.1155/2017/9842127
Proc. of Joint 17th World Congress of International Fuzzy Systems Association and 9th International Conference on Soft Computing and Intelligent Systems
巻: 50 ページ: 1-6
Proc. of 2017 IEEE International Conference on Fuzzy Systems
巻: F-0272 ページ: 1-6
Proc. of the 18th International Symposium on Advanced Intelligent Systems
巻: T2c-1 ページ: 243-249
巻: F1c-2 ページ: 471-478
http://www.cs.osakafu-u.ac.jp/hi/