研究課題/領域番号 |
21K12069
|
研究機関 | 室蘭工業大学 |
研究代表者 |
倉重 健太郎 室蘭工業大学, 大学院工学研究科, 准教授 (30352230)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 深層強化学習 / 多目的意思決定 / 行動学習 |
研究実績の概要 |
多目的環境下における均衡的行動の決定手法を目指し,本年度は(1)目的の優先度に基づいた行動の決定手法の改善を行い,(2)各目的の優先度を状態に応じて決定する方法について新たに提案した. (1)では各目的の優先度をベクトルとした目的ベクトルを設定し,各目的に対応する強化学習から出力される候補行動の価値に乗じ最大の値をとる候補行動を選択する手法を改善した.従来では目的ベクトルと候補行動の価値とのノルムに注目し最小の値をとる候補行動を選択していたが,一部の状況においてパフォーマンスの低下が見られた.そこで目的ベクトルと候補行動の価値をベクトル化したものの内積を用いた新たな手法を提案した. (2)では区間線形関数を用いて状態に応じた各目的の優先度を決定する手法を提案した.従来では状態に応じた優先度の算出はシグモイド関数を用い,目的に合わせて設計者がパラメータを決定していた.その特性上,状態に対して単調変化する優先度しか表すことが出来ず実環境の複雑性に対応することが困難であった.またタスクの追加・削除に対して設計者がパラメータを選択する必要があり,有用性が低い.そこで区間線形関数を用い,挿入点の追加によって状態と優先度との複雑な関係性を表現する手法を提案した. また新たな行動決定手法を用いたシステムに対してゴミ収集ロボットを想定したシミュレータを作成し,ゴミ収集量の増大・ロボットのエネルギー枯渇回避・ロボット内部温度の安定を目的とした実験を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度は,従来の強化学習を用いた離散行動・離散状態のシステムを拡張し,深層強化学習を用いた連続化を行う予定であった.しかし従来の強化学習を用いたシステムでの行動決定では,特殊状況下においてパフォーマンスの低下が起こることが観測された.そのため行動決定のアルゴリズムを改善し,全体的なパフォーマンスを行うことを優先した. 一方で2023年度において目指すタスクの追加・削除の容易化において重要となるタスクの優先度に関わるアルゴリズムを提案した.これにより優先度の決定が簡便になり,2023年度に予定しているタスクの追加・削除が容易となることが期待される.
|
今後の研究の推進方策 |
今後は,まず提案システムのモジュールとなっている強化学習を深層強化学習に拡張する.これにより状態・行動が連続化することで候補行動が連続化し,重要性を算出するための状態も連続化する.深層強化学習では深層学習に用いる学習時間が問題となる.そこで深層学習用GPUを用いてハードウェア処理することで短時間での学習を行う. また本年度提案した区間線形関数を用い,優先度の自律獲得について検討を行い,目的を追加した際の効率的な学習を目指す. 実験面ではOpenAIGymに対応することで,異なるシミュレーション実験への適用を容易とし,実用性の検証を行う.またシミュレーション実験をベースとした実機での実証実験を行う.OpenAIGymでは公開されている実験環境だけでなく,実機実験を視野にいれて独自開発することを視野に入れる.
|
次年度使用額が生じた理由 |
本年度は,手法の改善および実ロボットの製作に関わる物品の購入を行った.ほぼ必要なものは購入を行うことが出来たが,半導体部品不足のため,一部物品の値段高騰や入手不可があり,次年度に購入を行う予定である.
|