研究課題/領域番号 |
20K11946
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 奈良工業高等専門学校 |
研究代表者 |
山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)
|
研究分担者 |
高玉 圭樹 電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
市川 嘉裕 奈良工業高等専門学校, 情報工学科, 助教 (60805159)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2021年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 機械学習 / 多目的強化学習 / 報酬生起確率ベクトル / 重みベクトル / 部分計算 / 多目的最適方策 / 可視化 / ベクトル空間 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 重みベクトル空間 / 最適重み区間 / モデルベース強化学習 / 報酬獲得方策集合 / 凸包算出 / 多目的最適方策集合 / 熟達モデル |
研究開始時の研究の概要 |
本研究の目的は,機械学習の出力に対する根拠や理由を説明できる機構を多目的強化学習で実現し,その有効性を検証することである.具体的には,これまでの申請者らの基盤研究(C)研究で得られた成果を発展させ,多目的強化学習における学習結果全ての分布を熟達モデルとして可視化・説明する空間を構築し,目的間の任意の重みに対応した多目的最適方策を自動選択する機構の実現を目指す.
|
研究成果の概要 |
まず,全ての報酬獲得方策の収集・多目的最適方策決定の並列化と部分計算による高速化を実装した.状態数12,報酬数3の確率的MDP環境で,報酬獲得方策数は25.3万に対し,報酬生起確率ベクトル数は5430と約1/50に減少した.報酬数4の場合,報酬獲得方策全てに対応する生起確率ベクトル集合の算出までに要する実行時間を従来手法と比較した結果,既存手法(1590秒)と比べ並列化手法(8.8秒)は,1/180に高速化された.次に,報酬数n=3の場合について,多目的最適方策を最適化するための目的間の重みベクトルの範囲の決定をメッシュ法で実現し,「重みベクトルに対する最適方策の平均報酬の可視化を実現した.
|
研究成果の学術的意義や社会的意義 |
本研究の学術的意義は,従来手法では,平均報酬最大となる多目的最適方策の境界を解析的に解くのが,目的数3以上の場合に困難だったのに対し,本手法では,各重みベクトルに対して,式(1)を用いて各方策の平均報酬値を算出し,最大となる方策を決定するため,計算コストの許す限り,近似的な算出が可能な点である.しかも,多目的最適方策の決定過程において,多目的間の重要度を表す重みベクトルとは独立な,報酬生起確率ベクトルをまず算出し,次にそれを用いて多目的最適方策を最適化するための,目的間の重みベクトルの範囲の決定を,メッシュ法を用いて近似的に行うことで,目的数3以上の場合の算出を実現した点である.
|