強化学習における政策・時空間・ハイパーパラメータの分節化と最適化,その統合
Project/Area Number |
22K12182
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | Osaka Metropolitan University |
Principal Investigator |
野津 亮 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
|
Co-Investigator(Kenkyū-buntansha) |
生方 誠希 大阪公立大学, 大学院情報学研究科, 准教授 (10755698)
本多 克宏 大阪公立大学, 大学院情報学研究科, 教授 (80332964)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
|
Keywords | 強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム / 概念形成 / 最適化 |
Outline of Research at the Start |
強化学習における合理的な概念形成方法の開発と,必要試行回数・データ数の最小化が目的であり,ニューラルネットワーク構造,状態空間・時間の分割,行動選択政策,報酬設計,事前学習などを進化計算によって学習と同時・並列的に最適化しその達成を目指す.
|
Outline of Annual Research Achievements |
本研究の目的である,強化学習におけるハイパーパラメータ最適化に必要な探索回数を削減するための手法を開発した.最適化アルゴリズムを実用化するにあたって大きな問題となるのが,一回の探索コストの大きさである.実際に強化学習の最適化を用いて金属加工を行っている研究室では,その一回の時間的探索コストの大きさは,十分な精度を出すためには,探索一回につき数十分~数時間とのことで,非常に重い.今年度は探索回数が制限される際に,どのように探索と活用のバランスを取るべきかを調査し,いくつもの手法を考案・検討・シミュレーション実験した.結果として,探索の成功率をパラメータとして探索点を絞ることで,一般的なベンチマーク関数の探索を改善できることを統計的有意差(p<0.01)を持って確認できた.これは,The IEEE World Congress on Computational Intelligence (IEEE WCCI 2024,これはIEEE CISの3つのフラッグシップ会議であるIJCNN, FUZZ-IEEE, CEC が一堂に会する計算知能に関する世界最大の技術イベント)に論文が採択され発表予定である.
また,派生的な研究として,深層学習に人間の持つバイアスの手がかりを入力情報として埋め込むことで人間と同じような意思決定ができることを確認し,研究発表した.具体的には天候情報を組み込むことで株価予想の精度が上げられることを明確に示すことができた.これは人間のような強化学習システムを構築する際には,問題外と思われる情報も時には必要であることを意味する.この研究はIntegrated Uncertainty in Knowledge Modelling and Decision Makingの論文として掲載された.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究の方向性として,探索回数の削減以外に,全く新しいアルゴリズムなどを検討していたが,それほど良い結果で無かったりして,研究のバリエーションを増やすことはできなかったが,結果として研究実績の概要で示したように,学術的にも実用的にも意義のある手法を開発することができた.
|
Strategy for Future Research Activity |
今後は,まず一つとして,必要な探索回数をより少なくできないか検討する.現在の手法では探索回数の削減にも限界があるので,複数の最適化アルゴリズムを並列化する方法の開発を目指す.それぞれの手法のベンチマーク関数ごとの成績や探索点生成分布の傾向から手法を分類することから始め,次にそれらの手法を確率的・決定論的に使い分ける手法を検討していく. 二つ目に強化学習システムにおいて,学習と進化的パラメータ調整を同時に行うことを検討する.基本的なベンチマーク問題では,学習を並列的にすることで,探索をコストダウンでき,かつ,単体では精度が低くなりがちなハイパーパラメータの深層学習でも精度の高い学習ができることを確認している.さらにハイパーパラメータを進化的に変更しても可能かどうかを検討・実験する.
|
Report
(2 results)
Research Products
(5 results)