研究課題/領域番号 |
18K11473
|
研究機関 | 大阪府立大学 |
研究代表者 |
野津 亮 大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)
|
研究分担者 |
生方 誠希 大阪府立大学, 工学(系)研究科(研究院), 助教 (10755698)
本多 克宏 大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 強化学習 / 最適化アルゴリズム / クラスタリング / オンライン学習 |
研究実績の概要 |
本年度は,強化学習における空間と時間の分節化ということで,まず,入力差分学習と成長型自己組織化マップを用いた強化学習における,学習周期の動的な最適化について研究を進めた.徐々に周期を大きくしていく・小さくしていく,または,学習がうまくいかないときにランダムに周期を変更する方法などについて研究を進め,どの手法でも学習可能であることを確認した.ランダムに周期を変更する方法は,倒立振り子問題ではパラメータがあらかじめ設定されているものと比べて平均的に倍の時間で学習を完了することができていた.一方で,問題点としては,周期を徐々に変化させる場合の拡大・収縮率のパラメータによっては状態遷移の変化が大きすぎて最適な政策を学習できず,周期が変わり続けること,学習が成功したという状態を定義することが容易であれば良いが,そうでないときにどうするかということが明らかになった.これらは国内会議・国際会議にて発表した. さらに,最適化アルゴリズムについて,収束速度という観点から改善する方法を考案し,その有効性を確認した.最適化アルゴリズムを状況に応じて適応的に使い分けることは以前から研究されているが,解集団の収束速度を統計的な収束速度と比較して使い分ける手法を開発し,その有効性を明らかにした.また,解集団の初期配置に最適化が大きく依存していることを解消するために統計的な視点から解候補に振動を加える方法を提案することができた.国内会議・国際会議にて発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
強化学習における空間と時間の分節化については予定通り研究を進めており,研究発表できている.また,最適化アルゴリズムを切り替えるための判断基準を新しく構築することができた.
|
今後の研究の推進方策 |
強化学習における時間の分節化については,新しく,黄金分割法などのアルゴリズムも利用していく.また,強化学習の全てのパラメータに最適化アルゴリズムを適用する方法を提案することをこの研究課題の大きな目標の一つとして考えて,来年度はその足がかりとなるモデルを構築し,実験を行う. さらに,深層強化学習における状態の時空間の分節化についてはパラメータ調節に学習結果が大きく依存する可能性があるため,課題を変更しても適応し,オンライン学習をうまく進めさせるための適応アルゴリズムを検討し,実験をする. 前年度新しく構築した最適化アルゴリズムについては改善と具体的応用について研究を進める.
|
次年度使用額が生じた理由 |
計画していた論文投稿費用(2本)の支払いが遅れたため
|