研究課題/領域番号 |
18K11473
|
研究機関 | 大阪府立大学 |
研究代表者 |
野津 亮 大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)
|
研究分担者 |
生方 誠希 大阪府立大学, 工学(系)研究科(研究院), 助教 (10755698)
本多 克宏 大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 強化学習 / 進化計算 / 最適化アルゴリズム / 事前学習 |
研究実績の概要 |
本年度は,完全オンライン型強化学習を目的とし,環境に対する基礎的な特徴量を事前に学習させることの効果を確認するために,深層強化学習における必要最低限の事前学習について研究を進めた.深層学習は教師あり学習であり,教師データを必要とするため,教師データが存在しない問題ではうまく機能しない.さらに,深層強化学習は良い結果を出すことができる一方,そのデータを処理するために時間がかかるという欠点がある.そこで,環境とのインタラクション無しの事前学習を組み込むことで,学習にかかる時間を削減する方法を提案した.一般的に,似た特徴を持つ状態は同じような価値推定値を持つ.そのためこの事前学習では,似た特徴をもつ状態は似た価値推定値をもつように,ランダムに生成したセンサー入力が近ければ近い,遠ければ遠い値を出力させることを事前に学習させる.これにより,状態の近さ遠さを判定する特徴量をニューラルネットワークに学習させる.数値実験により効率的に学習することができることを確認した. さらに,最適化アルゴリズムについて,環境への適応という観点から改善する方法を考案し,その有効性を確認した.差分進化を途中でAdamアルゴリズムやNelder-Mead法に切り替えることにより,差分進化における単峰性形状時の無駄な探索を省き,より早く良解を得ることが期待できるが,そのタイミングを統計的誤差範囲と集団の広がりという観点からデザインし,数値実験によって探索効率があがることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目的である,入力差分学習と成長型自己組織化マップを用いた強化学習における時間の感覚の獲得,状態空間・行動空間・時間の同時分節化についてはほぼ研究を終えることができた.強化学習に関して発展的な課題としては,学習の安定性や進化計算・マルチエージェント環境を想定した学習システムデザインなどが考えられる.また,最適化アルゴリズムについては,ランダムネスの適応という観点から全く新しいアルゴリズムを考案し,数値実験によって最先端のアルゴリズムよりもよい結果を確認できることを部分的に確認したので,これについても研究を進める.
|
今後の研究の推進方策 |
強化学習に関して発展的な課題としては,学習の安定性や進化計算・マルチエージェント環境を想定した学習システムデザインなどが考えられる.現在は主に報酬確率分布を学習する深層強化学習システムの検討を進めている.報酬と罰の経験量を用いて確率分布を伝搬させる形で強化学習を行うことができることは以前の研究で確認しているので,深層強化学習にこれを適用することによって従来法ではできなかった確率分布を踏まえた行動の決定が可能であると考えている.従来法は価値推定値分布の平均値と分散を元に行動を決定するのが一般的であるが,これを正と不の報酬値によるβ分布とすることで,良いバンディットアルゴリズムであるトンプソンサンプリングやそのサンプリングを省略したものの適用することができる. また,最適化アルゴリズムについては,ランダムネスの適応という観点から全く新しいアルゴリズムを考案し,数値実験によって最先端のアルゴリズムよりもよい結果を確認できることを部分的に確認したので,これについても研究を進める.最適化におけるランダムネスは3つ想定することができ,これらは完全ランダム,統計誤差的ランダム,比例ランダムである.最適化問題は探索の途中で主として探索している部分の形が変わり,効果的なアルゴリズムが代わってくるので,3つのランダムネスとランダム無しを動的多腕バンディット問題と見なし,最適な方法を探る.
|
次年度使用額が生じた理由 |
投稿中の英語論文の査読者決定に時間がかかり,査読が遅れ,その掲載費用が次年度使用となった.強化学習と自己組織化マップという二つの領域にまたがる研究で,両方の領域に関して明るい研究者が見つからなかったためである.また,研究の進展を踏まえ国際会議論文投稿を増やした.当初は予定していなかったが,進化計算における最適なランダムネスを適応的に獲得させる方法を従来法を単純にそのまま拡張することで実装することができ,性能もよかったので研究発表することにした.その会議(イギリス・グラスゴー)の参加費・旅費を捻出するためである.
|