2022 年度実績報告書

多目的強化学習の学習結果全ての分布を可視化する報酬生起確率ベクトル空間の構築

研究課題

研究課題/領域番号	20K11946
研究機関	奈良工業高等専門学校
研究代表者	山口智浩奈良工業高等専門学校, 情報工学科, 教授 (00240838)
研究分担者	高玉圭樹電気通信大学, 大学院情報理工学研究科, 教授 (20345367) 市川嘉裕奈良工業高等専門学校, 情報工学科, 助教 (60805159)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	多目的強化学習 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 重みベクトル空間 / 最適重み区間 / 多目的最適方策 / モデルベース強化学習
研究実績の概要	本研究の目的は，多目的強化学習における学習結果全ての分布を可視化・説明する空間を構築し，目的間の任意の重みに対応した多目的最適方策を自動選択する機構の実現である． 2020年度は，報酬獲得方策の分布を可視化する報酬生起確率ベクトル空間を検討した．n個の報酬Ri(i=1,2,…n)を要素とする報酬ベクトルRに対し，重みの区間に応じて平均報酬最大となる方策集合(凸包の各頂点)を，多次元凸包算出法で計算した．次に全ての報酬獲得方策の収集・多目的最適方策決定の報酬数による並列化と部分計算による高速化とを実装・評価した．実行時間の概算は，CPUコア並列化で最大1/報酬数，生起確率ベクトル集合の部分計算で約1/50，両者で最大150～200倍の高速化が見込まれ，報酬数4での実測値は1/180であった． 2021年度は，報酬数n=3の場合で，多目的最適方策を最適化する，目的間の重みベクトルの範囲の決定と可視化を検討した．前者では，最適重み区間の近似推定として，重みベクトル空間を重み比で等間隔にメッシュ分割した．メッシュ各点での各多目的最適方策の平均報酬を算出し，平均報酬最大となる方策を決定することで，各方策が最適となる重みベクトルの範囲を算出する方法を実装した．後者の可視化では，最適となる多目的方策の範囲を，(1)重み比の空間，(2)重みベクトル空間，(3)平均報酬の内積空間，の3手法で可視化した結果，平均報酬の大きさと，方策が最適となる範囲の両方が可視化できる手法(3)が最も分かり易いと判断した． 2022年度は，前年度の成果を用いて，重みベクトル空間のメッシュ各点の最適方策から目的間の任意の重みに対応した多目的最適方策を自動選択する手法を実現した．さらに本手法の応用としてOpenAIGymのCartPoleSwingUpタスクを用いて，各報酬へ到達する部分方策の探査法と選択機構を検討した．

研究成果
(1件)

すべて雑誌論文 (1件) (うち国際共著 1件、査読あり 1件)

[雑誌論文] Formalizing Model-based Multi-Objective Reinforcement Learning with a Reward Occurrence Probability Vector2022
- 著者名/発表者名
  Yamaguchi, T., Kawabuchi, Y., Takahashi, S., Ichikawa, Y., and Takadama, K.
- 雑誌名
  
  Handbook of Research on New Investigations in Artificial Life, AI, and Machine Learning, Chapter 12, IGI Global
  
  巻: Chapter 12 ページ: 299-330
- DOI
  10.4018/978-1-7998-8686-0.ch012
- 査読あり / 国際共著