研究課題/領域番号 |
20K11946
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 奈良工業高等専門学校 |
研究代表者 |
山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)
|
研究分担者 |
高玉 圭樹 電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
市川 嘉裕 奈良工業高等専門学校, 情報工学科, 助教 (60805159)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 機械学習 / 多目的強化学習 / 報酬生起確率ベクトル / 重みベクトル / 部分計算 / 多目的最適方策 / 可視化 / ベクトル空間 |
研究成果の概要 |
まず,全ての報酬獲得方策の収集・多目的最適方策決定の並列化と部分計算による高速化を実装した.状態数12,報酬数3の確率的MDP環境で,報酬獲得方策数は25.3万に対し,報酬生起確率ベクトル数は5430と約1/50に減少した.報酬数4の場合,報酬獲得方策全てに対応する生起確率ベクトル集合の算出までに要する実行時間を従来手法と比較した結果,既存手法(1590秒)と比べ並列化手法(8.8秒)は,1/180に高速化された.次に,報酬数n=3の場合について,多目的最適方策を最適化するための目的間の重みベクトルの範囲の決定をメッシュ法で実現し,「重みベクトルに対する最適方策の平均報酬の可視化を実現した.
|
自由記述の分野 |
強化学習
|
研究成果の学術的意義や社会的意義 |
本研究の学術的意義は,従来手法では,平均報酬最大となる多目的最適方策の境界を解析的に解くのが,目的数3以上の場合に困難だったのに対し,本手法では,各重みベクトルに対して,式(1)を用いて各方策の平均報酬値を算出し,最大となる方策を決定するため,計算コストの許す限り,近似的な算出が可能な点である.しかも,多目的最適方策の決定過程において,多目的間の重要度を表す重みベクトルとは独立な,報酬生起確率ベクトルをまず算出し,次にそれを用いて多目的最適方策を最適化するための,目的間の重みベクトルの範囲の決定を,メッシュ法を用いて近似的に行うことで,目的数3以上の場合の算出を実現した点である.
|