2022 Fiscal Year Annual Research Report
Segmentation of Time and Space in a Fully Online Reinforcement Learning System
Project/Area Number |
18K11473
|
Research Institution | Osaka Metropolitan University |
Principal Investigator |
野津 亮 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
|
Co-Investigator(Kenkyū-buntansha) |
生方 誠希 大阪公立大学, 大学院情報学研究科, 准教授 (10755698)
本多 克宏 大阪公立大学, 大学院情報学研究科, 教授 (80332964)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム |
Outline of Annual Research Achievements |
最終年度では,複数の深層強化学習ネットワークを並列的に学習させ,最適な特徴量を抽出しやすいニューラルネットワークを生成する手法を開発,検討した.複数のネットワークに経験を共有させることによって探索的な行動政策がそれほど必要なくなること,計算コストを抑えるために経験共有をしない場合は,行動を決定するネットワークの選択をするバンディットアルゴリズムに結果が大きく依存することなどが新しい知見として得られた. また,良い分節化を得られるネットワークを得るための,進化計算アルゴリズムの開発においてはアルゴリズムの簡略化に成功し,より直感的でわかりやすいパラメータの設定によって探索効率を上げることに成功した.具体的には適応的差分進化JADE手法に領域外探索を加えるのだが,その距離を自動的に決めて,パラメータとしては,領域外探索をする時の探索成功率というシンプルなもののみに絞ることができた. 研究期間全体を通じて,空間・時間の分節化,適切な強化学習の選択についてアルゴリズムを開発し,研究発表することができた.また,派生的な研究として,これらを適応的に進化させるための進化計算アルゴリズムを大きな突然変異を組み込んだ形で研究発表できた. 当初,本研究課題計画からの変更点としては,深層強化学習を扱うことにした点が大きい.研究計画を立てた段階では成長型自己組織化マップの多層化を検討していたが,近年のAI技術の発展に伴い,ディープラーニングが注目され,それらとの明確な区別がつけづらくなった.加えて,必要とするメモリ量を減らすことにそれほど大きな意味も無くなってきたということで,シフトしたが,漸近最適戦略や最適化を深層強化学習に適用し成果を上げることができたのは非常に大きい学術的な意義があったと考えている.
|