2020 Fiscal Year Research-status Report
Reward occurence probability vector space that Visualizes the distribution of whole learning results of multi-objective reinforcement learning
Project/Area Number |
20K11946
|
Research Institution | Nara National College of Technology |
Principal Investigator |
山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)
|
Co-Investigator(Kenkyū-buntansha) |
高玉 圭樹 電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
市川 嘉裕 奈良工業高等専門学校, 情報工学科, 助教 (60805159)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 多目的強化学習 / モデルベース強化学習 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 報酬獲得方策集合 / 凸包算出 / 多目的最適方策集合 |
Outline of Annual Research Achievements |
今年度は,全ての報酬獲得方策の分布を可視化する報酬生起確率ベクトル空間について,報酬数n=3,4の場合を検討した.n個の報酬Ri(i=1,2,…n)を要素とする報酬ベクトルRに対し,任意の方策が獲得する報酬の生起確率pi(i=1,2,3,…n)を要素とするベクトルを報酬生起確率ベクトルPとしたときに,任意の方策は,n次元の報酬生起確率ベクトル空間内の1点で表わされる.重みの区間に応じて平均報酬最大となる方策集合は,空間の凸包の各頂点となり,既存の多次元凸包算出法で計算できる. 次に,全ての報酬獲得方策の収集・多目的最適方策決定の並列化と部分計算による高速化を実装・評価した.まず既存手法で全体の処理時間のボトルネックだった報酬獲得方策全ての収集は,n個の報酬Riそれぞれを起点とする木探索で行う.報酬別の木探索は並列化できるため,マルチプロセッシングによるCPUコア並列化を実装した.報酬数nがコア数以下の場合,実行時間は最大1/nとなる.次に凸包算出の前処理として,収集した方策を生起確率ベクトルで多重ソートし,(異なる要素からなる)生起確率ベクトル集合を凸包算出前に部分計算した.状態数12,報酬数3の場合,50回の異なる確率的MDP環境において,平均の報酬獲得方策数25.3万(±8.3万)に対し,平均の報酬生起確率ベクトル数は5430(±5130)と約1/50に減少した.状態数5~12,action数3, 報酬数n=3,4の確率的MDP環境で報酬獲得方策全てに対応する生起確率ベクトル集合の算出までに要する実行時間を比較した結果,状態数12,報酬数4の場合,既存手法(1590秒)と比べ並列化手法(8.8秒)は,1/180に高速化された.実行時間の概算は,コア並列化で最大1/3~1/4,生起確率ベクトル集合の部分計算で約1/50だったので,両者を合わせると最大150~200倍の高速化が見込まれるため,実測値(1/180)は妥当である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究の進捗については(2)おおむね順調に進展しているが,研究発表については,計画よりも(3)やや遅れている.主たる理由は,初年度,新型コロナ感染防止のため,教育の遠隔授業への移行および,成績評価のWeb化の作業コストが新たに発生したためである.
|
Strategy for Future Research Activity |
初年度の研究成果については,実験データを追加した上で,本年度以降に発表予定である.今年度の研究計画については,項目3を今年度,項目4を今年度と来年度で実施予定である. 項目3: 報酬生起確率ベクトル空間での多目的最適方策集合に基づく熟達モデルの可視化 項目4: 多目的最適方策を最適化するための目的間の重みベクトルの範囲の決定 全ての報酬獲得方策の集合を多目的最適方策集合とそれ以外の非最適方策集合に分け,それぞれを何%カバーしているかで熟達モデルを近似する.これまでの予備実験結果から10状態程度の多目的強化学習タスクの場合,非最適な(決定的)方策数が数万となることから,本研究では,熟達モデルを構築する方策の収集目標数として,多目的最適方策集合全て(100%),非最適方策集合は代表的な方策(0.1~1%)を目指す.熟達モデルを構成する各方策は再利用を主たる目的とするため,状況に応じて各方策を使い分けるための構造化知識として,各目標の生起確率を表す生起確率ベクトル,解の良さを表す平均報酬,方策が最適となる条件を記述する.
|
Causes of Carryover |
次年度使用額が生じた理由:新型コロナ感染防止対策が国内外で実施されたため, 初年度に予定していた対外発表が,全てオンライン発表に変更になり,旅費が生じなかったため. 使用計画:まず,申請時に申請した研究遂行に必要な物品費のうち削減分として使用する.残額が生じれば,最終年度の論文投稿料,および新型コロナ感染防止対策が不要となり,対面発表可能になった場合の追加旅費として使用する.
|
Research Products
(10 results)