研究実績の概要 |
今年度は,全ての報酬獲得方策の分布を可視化する報酬生起確率ベクトル空間について,報酬数n=3,4の場合を検討した.n個の報酬Ri(i=1,2,…n)を要素とする報酬ベクトルRに対し,任意の方策が獲得する報酬の生起確率pi(i=1,2,3,…n)を要素とするベクトルを報酬生起確率ベクトルPとしたときに,任意の方策は,n次元の報酬生起確率ベクトル空間内の1点で表わされる.重みの区間に応じて平均報酬最大となる方策集合は,空間の凸包の各頂点となり,既存の多次元凸包算出法で計算できる. 次に,全ての報酬獲得方策の収集・多目的最適方策決定の並列化と部分計算による高速化を実装・評価した.まず既存手法で全体の処理時間のボトルネックだった報酬獲得方策全ての収集は,n個の報酬Riそれぞれを起点とする木探索で行う.報酬別の木探索は並列化できるため,マルチプロセッシングによるCPUコア並列化を実装した.報酬数nがコア数以下の場合,実行時間は最大1/nとなる.次に凸包算出の前処理として,収集した方策を生起確率ベクトルで多重ソートし,(異なる要素からなる)生起確率ベクトル集合を凸包算出前に部分計算した.状態数12,報酬数3の場合,50回の異なる確率的MDP環境において,平均の報酬獲得方策数25.3万(±8.3万)に対し,平均の報酬生起確率ベクトル数は5430(±5130)と約1/50に減少した.状態数5~12,action数3, 報酬数n=3,4の確率的MDP環境で報酬獲得方策全てに対応する生起確率ベクトル集合の算出までに要する実行時間を比較した結果,状態数12,報酬数4の場合,既存手法(1590秒)と比べ並列化手法(8.8秒)は,1/180に高速化された.実行時間の概算は,コア並列化で最大1/3~1/4,生起確率ベクトル集合の部分計算で約1/50だったので,両者を合わせると最大150~200倍の高速化が見込まれるため,実測値(1/180)は妥当である.
|