2021 Fiscal Year Research-status Report
Reward occurence probability vector space that Visualizes the distribution of whole learning results of multi-objective reinforcement learning
Project/Area Number |
20K11946
|
Research Institution | Nara National College of Technology |
Principal Investigator |
山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)
|
Co-Investigator(Kenkyū-buntansha) |
高玉 圭樹 電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
市川 嘉裕 奈良工業高等専門学校, 情報工学科, 助教 (60805159)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 多目的強化学習 / モデルベース強化学習 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 報酬獲得方策集合 / 凸包算出 / 多目的最適方策集合 |
Outline of Annual Research Achievements |
今年度は,報酬数n=3の場合について,全ての報酬獲得方策の分布を可視化する報酬生起確率ベクトル空間における,項目4:多目的最適方策を最適化するための目的間の重みベクトルの範囲の決定および項目3:熟達モデルの可視化について検討した. まず,項目4では,重み和=1 となる制約により,次元数を1減らすことができる.これを用いて既存手法では,報酬数n=2の場合には,2次元重みベクトル空間における重みベクトルがx軸となす角度αを用いて,各最適方策の重みベクトルの境界が算出できることが知られていたが,報酬数n=3以上の場合には,解析的に解くことが困難であった.一方,本手法では,各方策の平均報酬が方策の報酬生起確率ベクトルと重みベクトルとの内積で算出されるため,方策ごとに再学習を要する既存手法と比べ,計算コストが小さい.これを利用して,最適重み区間を近似的に推定する手法を検討した.具体的には,メッシュ法を用いて重みベクトル空間を等間隔に分割し,メッシュ各点での各多目的最適方策の平均報酬を算出し,平均報酬最大となる方策を決定することで,各方策が最適となる重みベクトルの範囲を算出,可視化する方法を実装・評価した.平均報酬算出の計算量は,多目的最適方策数をn, 目的あたりのメッシュ点数をm,目的数をkとしたときに,o(n x m x k) となる.メッシュ分割法を,重み値,重み比とで比較した結果,重み比に対して等分割 する方が最適重み区間の境界付近の可視化が改善された. 次に,上述のメッシュ法での重みベクトル空間の最適範囲の可視化手法を用いて,項目3:熟達モデルの可視化手法の分かり易さについて検討した.最適となる多目的方策の範囲を,(1)重み比の空間,(2)重みベクトル空間,(3)平均報酬の内積空間,の3手法について可視化した結果,平均報酬の大きさと,方策が最適となる範囲の両方が可視化できる手法(3)が最も分かり易いと判断した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の進捗および研究発表については(2)おおむね順調に進展している.
|
Strategy for Future Research Activity |
今年度の研究計画については,項目3:報酬生起確率ベクトル空間での多目的最適方策集合に基づく熟達モデルの可視化,を今年度にひきつづき来年度実施予定である. 今年度は,全ての報酬獲得方策の集合のうち,多目的最適方策集合の分布に着目して熟達モデルを近似する.まず多目的最適方策集合を,獲得する報酬数によって,単一報酬獲得方策集合と,複数報酬獲得方策集合とに分類する.ここで,単一報酬獲得方策集合は,獲得する報酬ごとに,報酬生起確率が最大,または最小となる2つの多目的最適方策で構成されている.報酬生起確率が最大である単一報酬獲得方策は,学習初期に獲得されやすく,報酬生起確率が最小である単一報酬獲得方策は,報酬獲得に要する経路長が長いため,一般的に学習初期には獲得されにくい方策である.この性質を利用して,本研究では,熟達モデルを構築する方策の収集目標数として,非最適方策集合は,上述の単一報酬獲得方策のみを対象として,報酬ごとに代表的な方策(数個)とし,多目的最適方策集合は全て(100%)を目指す. 熟達モデルを構成する各方策は再利用を主たる目的とするため,状況に応じて各方策を使い分けるための構造化知識として,各目標の生起確率を表す生起確率ベクトル,解の良さを表す平均報酬,多目的最適方策についてはその方策が最適となる条件を記述する.
|
Causes of Carryover |
次年度使用額が生じた理由:新型コロナ感染防止対策が国内外で実施されたため,前年度に引き続き予定していた対外発表の多くが,オンライン発表となり,少額の旅費で済んだため. 使用計画:まず,申請時に申請した研究遂行に必要な物品費のうち削減分として使用する.残額が生じれば,新型コロナ感染防止対策が不要となり,対面発表可能になった場合の追加旅費として使用する.
|
Research Products
(7 results)