2022 Fiscal Year Annual Research Report
Reward occurence probability vector space that Visualizes the distribution of whole learning results of multi-objective reinforcement learning
Project/Area Number |
20K11946
|
Research Institution | Nara National College of Technology |
Principal Investigator |
山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)
|
Co-Investigator(Kenkyū-buntansha) |
高玉 圭樹 電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
市川 嘉裕 奈良工業高等専門学校, 情報工学科, 助教 (60805159)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 多目的強化学習 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 重みベクトル空間 / 最適重み区間 / 多目的最適方策 / モデルベース強化学習 |
Outline of Annual Research Achievements |
本研究の目的は,多目的強化学習における学習結果全ての分布を可視化・説明する空間を構築し,目的間の任意の重みに対応した多目的最適方策を自動選択する機構の実現である. 2020年度は,報酬獲得方策の分布を可視化する報酬生起確率ベクトル空間を検討した.n個の報酬Ri(i=1,2,…n)を要素とする報酬ベクトルRに対し,重みの区間に応じて平均報酬最大となる方策集合(凸包の各頂点)を,多次元凸包算出法で計算した.次に全ての報酬獲得方策の収集・多目的最適方策決定の報酬数による並列化と部分計算による高速化とを実装・評価した.実行時間の概算は,CPUコア並列化で最大1/報酬数,生起確率ベクトル集合の部分計算で約1/50,両者で最大150~200倍の高速化が見込まれ,報酬数4での実測値は1/180であった. 2021年度は,報酬数n=3の場合で,多目的最適方策を最適化する,目的間の重みベクトルの範囲の決定と可視化を検討した.前者では,最適重み区間の近似推定として,重みベクトル空間を重み比で等間隔にメッシュ分割した.メッシュ各点での各多目的最適方策の平均報酬を算出し,平均報酬最大となる方策を決定することで,各方策が最適となる重みベクトルの範囲を算出する方法を実装した.後者の可視化では,最適となる多目的方策の範囲を,(1)重み比の空間,(2)重みベクトル空間,(3)平均報酬の内積空間,の3手法で可視化した結果,平均報酬の大きさと,方策が最適となる範囲の両方が可視化できる手法(3)が最も分かり易いと判断した. 2022年度は,前年度の成果を用いて,重みベクトル空間のメッシュ各点の最適方策から目的間の任意の重みに対応した多目的最適方策を自動選択する手法を実現した.さらに本手法の応用としてOpenAIGymのCartPoleSwingUpタスクを用いて,各報酬へ到達する部分方策の探査法と選択機構を検討した.
|
Research Products
(1 results)
-
[Journal Article] Formalizing Model-based Multi-Objective Reinforcement Learning with a Reward Occurrence Probability Vector2022
Author(s)
Yamaguchi, T., Kawabuchi, Y., Takahashi, S., Ichikawa, Y., and Takadama, K.
-
Journal Title
Handbook of Research on New Investigations in Artificial Life, AI, and Machine Learning, Chapter 12, IGI Global
Volume: Chapter 12
Pages: 299-330
DOI
Peer Reviewed / Int'l Joint Research