2020 Fiscal Year Research-status Report
完全オンライン型強化学習システムにおける時間と空間の分節化
Project/Area Number |
18K11473
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
野津 亮 大阪府立大学, 人間社会システム科学研究科, 教授 (40405345)
|
Co-Investigator(Kenkyū-buntansha) |
生方 誠希 大阪府立大学, 工学(系)研究科(研究院), 准教授 (10755698)
本多 克宏 大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 強化学習 / 自己組織化マップ / オンライン学習 / クラスタリング / 最適化アルゴリズム / バンディットアルゴリズム |
Outline of Annual Research Achievements |
本年度は,強化学習において,学習速度を落とすことなく,自己組織化マップを用いて空間を動的に分節化する方法についての論文を掲載させることができた.一般的には入力の距離情報等を用いて空間を分割させる,もしくは関数近似することが多いが,直前の状態からの変化を記録して自己組織化マップで推定させることによって,単に空間を均等に分割することでは獲得できない,適切な状態空間の分割に成功し,学習効率を高めることができた.発展的な課題として,状態分割が変化する中で各状態をどのくらい探索してきたのかを推定できないと,探索的もしくは活用的な行動選択のどちらをすれば良いのかを決定することが難しいという問題が浮かび上がってきた.状態空間を分割しつつそれまでの探索回数をカウントしなおすという作業をすることは,実用的でないと考え,現在は経験した状態かどうかという学習と探索回数を表現する関数モデルの二つを使い,深層強化学習でも行動のリグレットを最小化するような手法を実験中である. また本年度は,時間と空間の分割を最適化するためのアルゴリズムとして,適応的にランダムさを変更させる最適化アルゴリズムを開発することができた.基本的に全く特徴や性能が異なるいくつかの手法を使い分けることについてはまだ未知の部分も多いが,従来は全く役に立たないようなパラメータ設定も他手法を組み合わせることによって精度や速度を改善することができることを明らかにすることができた.単にアルゴリズムを混ぜ合わせるだけでは探索速度が低下してしまうので,それを抑える方法をいくつか発表し,現在も研究を進めている.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型コロナウィルス感染拡大の影響により,研究環境の変化や研究時間の確保の困難,負荷が大きくなりPCが故障したりしたため研究に遅れが生じている.オンラインでの研究や教育活動により,研究実績でも触れたような新しい課題やアイディアに取り組み,いくつか実験成果が上がっている段階である.
|
Strategy for Future Research Activity |
本年度は,深層強化学習プロセス全体のリグレットの最小化を達成するための政策・学習アルゴリズム,探索速度を低下させずに大域的最適解を高確率で捉えるための最適化アルゴリズムのハイブリッド化について研究を進める.
|
Causes of Carryover |
コロナウィルス感染拡大に伴い,研究・教育・学会活動をスケジュール通り行うことが困難になったため 主にオンライン対応の研究環境整備,国際会議参加費2件以上,国内会議参加費2件以上,論文校正・投稿費として使用する
|