Project/Area Number |
18K11473
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | Osaka Metropolitan University (2022) Osaka Prefecture University (2018-2021) |
Principal Investigator |
Notsu Akira 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
|
Co-Investigator(Kenkyū-buntansha) |
生方 誠希 大阪公立大学, 大学院情報学研究科, 准教授 (10755698)
本多 克宏 大阪公立大学, 大学院情報学研究科, 教授 (80332964)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2020: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2018: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 強化学習 / クラスタリング / 最適化アルゴリズム / 転移学習 / 学習と進化 / 進化計算 / ニューラルネットワーク / バンディットアルゴリズム / 自己組織化マップ / オンライン学習 / 事前学習 / オンライン型 / 認知モデル |
Outline of Final Research Achievements |
We modified the growing self-organizing map for reinforcement learning and devised a method for unsupervised learning of state space and state transitions while maintaining learning efficiency, and demonstrated the usefulness of this method. We also showed that the method can adapt to the environment by adaptively changing the hyperparameter settings significantly. Furthermore, we proposed a method for switching methods while estimating several local environments for differential evolution, which is one of the best optimization algorithm methods, and were able to improve the performance. In addition, we were able to apply our findings to deep reinforcement learning, which had not been considered much at first, and propose a completely new deep reinforcement learning system.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究は強化学習が必要とする空間を統計学的に大量のデータを用いて獲得するのでは無く,幾何学的なミクロな観点から獲得したという意味で学術的な意義があると考えている.また,機械学習にとってハイパーパラメータの設定は大きな問題であるが,その適応的変化や並列学習で対応できることを明らかにしたことは,学術的にも産業応用を考えた上でも意義がある.さらに,ブラックボックス最適化アルゴリズムを発展させることは複雑化する社会問題など,ありとあらゆる最適化に貢献できることを意味しているので,社会的にも大きな意義がある.
|