2017 Fiscal Year Annual Research Report
Application of Asymptotic Optimal Strategy to Dynamic Adaptive Learning Algorithm
Project/Area Number |
15K00344
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
野津 亮 大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)
|
Co-Investigator(Kenkyū-buntansha) |
本多 克宏 大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 強化学習 / クラスタリング / オンライン型 / 認知モデル / 漸近最適戦略 |
Outline of Annual Research Achievements |
本年度は強化学習における状態空間のクラスタリングについて,成長型自己組織化マップをもちいることによってオンライン型で,かつ状態空間を人間が与える方法よりも速く学習させることができることを発見できた.従来のクラスタリング技術では学習中にクラスタリングを適用すると,新しい状態が観測されたときにそれまでの学習結果が壊れてしまうことがあった.成長型のアルゴリズムによって既存の学習結果を壊さずに状態空間を定義し,速い学習速度を保持することができ,かつ,必要最低限の計算量やメモリの確保で学習できることが確認できた.基礎的な研究については国内発表を終え,論文投稿を行った. また,漸近最適戦略を差分進化アルゴリズムに応用する研究を進めた.これは最適化問題における探索アルゴリズムの探索と活用のバランスを改善し,探索効率を大幅に改善するものである.従来法は初期探索の効率が悪いが,これは,次の探索点を決める際に良い解が得られそうなところを探索するのか,新しい情報を求めて別な場所を探索するのかの調節方法について統計的な視点からアルゴリズム化されていないためである.差分進化アルゴリズムをUCTアルゴリズムと融合させ,両者の長所を兼ね備えた探索アルゴリズムを提案した.これについて国際会議発表にてBest Paper Award を受賞した. 研究期間全体を通じ,状態・行動空間のクラスタリングと漸近最適戦略により,オンライン型強化学習アルゴリズムを大きく発展させることができた.近年,バッチ型の強化学習が注目を浴びることが多いが,オンライン型で柔軟で,計算量が少なく高価な計算機を必要としない学習アルゴリズムを開発することによって,機械学習の適用範囲を大きく広げることができた.また,人間の持つしなやかで適応的な学習能力を再現する一つの認知モデルを提案できたことは心理学的にも重要な意味を持っていると考えている.
|