研究課題/領域番号 |
22K12182
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61040:ソフトコンピューティング関連
|
研究機関 | 大阪公立大学 |
研究代表者 |
野津 亮 大阪公立大学, 大学院現代システム科学研究科, 教授 (40405345)
|
研究分担者 |
生方 誠希 大阪公立大学, 大学院情報学研究科, 准教授 (10755698)
本多 克宏 大阪公立大学, 大学院情報学研究科, 教授 (80332964)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
|
キーワード | 強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム / 概念形成 / 最適化 |
研究開始時の研究の概要 |
強化学習における合理的な概念形成方法の開発と,必要試行回数・データ数の最小化が目的であり,ニューラルネットワーク構造,状態空間・時間の分割,行動選択政策,報酬設計,事前学習などを進化計算によって学習と同時・並列的に最適化しその達成を目指す.
|
研究実績の概要 |
深層強化学習において,ハイパーパラメータの設定がどのような影響を与えるかについて実験・検討し,その結果に基づき,異なるハイパーパラメータを持つ複数のニューラルネットワークを並行して学習させ,その都度成績の良いものを採用する手法を開発した.事前実験でハイパーパラメータによっては初期探索速度が速いものや逆に最終的な精度が高いものなどがあることが確認されたため,どのパラメータが一番良いかを選定するのではなくて,並列に学習させ,出力はその都度良いものを選択するという手法を提案した.意外な結果としては,ニューラルネットワークが学習に必要なパラメータ数を持っている場合,ある意味適当に選んだ他のネットワークの出力でもそのネットワークの学習に良い影響を与えることが多いことであった.逆に統計的に学習効率を最大化させようとする手法を用いてネットワークを選択すると全体として探索度合いが高くなってしまうため,最終的な成績は悪いということが分かった. また,強化学習のハイパーパラメータ最適化に向けたアルゴリズム開発では,新しいパラメータを発掘するために,探索領域の拡張を自ら行う手法を検討し,良い精度を出すことを確認した.具体的に,以前提案したアルゴリズムの設定パラメータを削減しつつも良い探索精度を出すことができた.実験では,領域外探索の距離とタイミングについて複数のパターンを調査し,遠くの距離を探索させる頻度は徐々小さくすべきであるということと,探索点群の更新頻度が半分以上の時に遠くの距離を探索させるのか,半分以下の時に探索させるのかで精度の向上に与える質的な違いが明らかになり,それを利用した手法を開発することができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
提案したアルゴリズムの実験結果も良好であり,論文掲載や国際会議発表などで成果を挙げることができたため.
|
今後の研究の推進方策 |
故意に成績の悪いハイパーパラメータを持つ強化学習器が混ざっていても頑強な学習を可能とし,深層強化学習の並列進化アルゴリズムの開発を行う.それぞれの学習器から次の世代のハイパーパラメータを生成し,選択する際に,適者生存させることと多様性の維持をどうバランス取るかが一つ当面の課題になると思われる.また,引き続き,純粋な最適化アルゴリズムの研究も行う.適応的に探索点数を調節できるアルゴリズムをクラスタリングという観点から開発する予定である.
|