研究課題/領域番号 |
18K11473
|
研究機関 | 大阪府立大学 |
研究代表者 |
野津 亮 大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)
|
研究分担者 |
生方 誠希 大阪府立大学, 工学(系)研究科(研究院), 准教授 (10755698)
本多 克宏 大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | 強化学習 / 進化計算 / ニューラルネットワーク / 最適化アルゴリズム / バンディットアルゴリズム |
研究実績の概要 |
本年度の大きな進展としては,ベータ分布伝搬型強化学習を深層強化学習向けに調整し,学習速度を飛躍的に(設定した実験では二倍以上)速めることに成功したことと,差分進化アルゴリズムにおける探索点群の外の効率的な探索方法を提案し,有効性を確認したことをあげることができる. 本研究課題では強化学習における行動選択の政策も再検討の対象となるが,パラメータの追加を極力減らしつつもより効率的な探索ができる政策を開発していく必要がある.ベータ分布伝搬型強化学習とは報酬の期待値の分布をベータ分布で表現・学習するものであり,報酬の上限や下限が決まっている問題に対して効果を発揮するものとして以前我々が開発した手法である.今回はこれを深層強化学習向けに構築し直し,その有用性を確認した. また,差分進化アルゴリズムの改良も行った.一般に進化計算アルゴリズムにおいて闇雲に集団外探索を追加すると探索効率を大きく落とすことになる.提案法では,ネルダーミード法をベースにしたが,どれくらいの距離離れたところを探索すべきかについては,差分進化の挙動を考慮して幾何分布によるサンプリングによって決定させることとした.これにより探索効率をほとんど落とさずに外側に解が存在した場合に対応させることに成功した. さらに派生的な研究として,確率バイアスや気分といった心理学的な要素が(強化学習などの)問題に対してどれくらい影響するのかについても調査した.複雑な意思決定になると一般的に用いられているアルゴリズム(選択問題におけるεグリーディ政策,囚人のジレンマ問題におけるしっぺ返し)よりもバイアスがある方が安定したりすることを明らかにし,気象情報による株価変動予測などの精度向上などについても確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では,強化学習や進化計算における明示的,あるいは暗黙的なパラメータ設定の自動化が主な具体的目標となる.一般的にパラメータの数が多いほど学習効率が落ちたり,学習が難しくなるが,本研究では,問題空間の構造や統計学的観点から学習難易度をなるべく下げずに設定する方法を検討してきた. これまでの研究で,問題空間の分割状況の保存と細分化,距離空間の事前学習,バンディットアルゴリズムによる探索と活用のバランス,ベイズ推定といった観点からぞれぞれ強化学習や進化計算の柔軟性を高めることができた.また,強化学習における時間の分節化についても,過去の学習結果を利用できるような再分割をしていく必要があるが,こちらは一次元の最適化問題であり,ランダム探索,学習率をベースとするシンプルな最適化手法で良いことが確認できている.目標とする完全オンライン型の学習が可能になってきたと考えている.
|
今後の研究の推進方策 |
本年度はベータ分布伝搬型深層強化学習の分析と集団外探索を効率的に組み込んだ差分進化アルゴリズムの改良に関する研究を中心に進めて行く.それぞれ国際会議報告する予定である.
|
次年度使用額が生じた理由 |
今年度開発した強化学習手法と差分進化アルゴリズムの性能が想定よりも良く,より詳細な分析をして発表する方が良いと判断したため. 論文費用,国際・国内会議での発表費用,計算機とソフトの更新費用として使用する計画である.
|