2022 Fiscal Year Research-status Report
強化学習における政策・時空間・ハイパーパラメータの分節化と最適化,その統合
Project/Area Number |
22K12182
|
Research Institution | Osaka Metropolitan University |
Principal Investigator |
野津 亮 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
|
Co-Investigator(Kenkyū-buntansha) |
生方 誠希 大阪公立大学, 大学院情報学研究科, 准教授 (10755698)
本多 克宏 大阪公立大学, 大学院情報学研究科, 教授 (80332964)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム |
Outline of Annual Research Achievements |
深層強化学習において,ハイパーパラメータの設定がどのような影響を与えるかについて実験・検討し,その結果に基づき,異なるハイパーパラメータを持つ複数のニューラルネットワークを並行して学習させ,その都度成績の良いものを採用する手法を開発した.事前実験でハイパーパラメータによっては初期探索速度が速いものや逆に最終的な精度が高いものなどがあることが確認されたため,どのパラメータが一番良いかを選定するのではなくて,並列に学習させ,出力はその都度良いものを選択するという手法を提案した.意外な結果としては,ニューラルネットワークが学習に必要なパラメータ数を持っている場合,ある意味適当に選んだ他のネットワークの出力でもそのネットワークの学習に良い影響を与えることが多いことであった.逆に統計的に学習効率を最大化させようとする手法を用いてネットワークを選択すると全体として探索度合いが高くなってしまうため,最終的な成績は悪いということが分かった. また,強化学習のハイパーパラメータ最適化に向けたアルゴリズム開発では,新しいパラメータを発掘するために,探索領域の拡張を自ら行う手法を検討し,良い精度を出すことを確認した.具体的に,以前提案したアルゴリズムの設定パラメータを削減しつつも良い探索精度を出すことができた.実験では,領域外探索の距離とタイミングについて複数のパターンを調査し,遠くの距離を探索させる頻度は徐々小さくすべきであるということと,探索点群の更新頻度が半分以上の時に遠くの距離を探索させるのか,半分以下の時に探索させるのかで精度の向上に与える質的な違いが明らかになり,それを利用した手法を開発することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
提案したアルゴリズムの実験結果も良好であり,論文掲載や国際会議発表などで成果を挙げることができたため.
|
Strategy for Future Research Activity |
故意に成績の悪いハイパーパラメータを持つ強化学習器が混ざっていても頑強な学習を可能とし,深層強化学習の並列進化アルゴリズムの開発を行う.それぞれの学習器から次の世代のハイパーパラメータを生成し,選択する際に,適者生存させることと多様性の維持をどうバランス取るかが一つ当面の課題になると思われる.また,引き続き,純粋な最適化アルゴリズムの研究も行う.適応的に探索点数を調節できるアルゴリズムをクラスタリングという観点から開発する予定である.
|
Causes of Carryover |
新型コロナウィルスの感染状況の悪化により国際会議発表がオンライン参加に変更になったため
|
Research Products
(4 results)