2023 Fiscal Year Research-status Report
深層強化学習による多目的環境下での調和的行動の実現
Project/Area Number |
21K12069
|
Research Institution | Muroran Institute of Technology |
Principal Investigator |
倉重 健太郎 室蘭工業大学, 大学院工学研究科, 准教授 (30352230)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 深層強化学習 / 多目的意思決定 / 行動学習 |
Outline of Annual Research Achievements |
多目的環境下における均衡的行動の決定手法の提案を目指し,本年度では(1)タスク毎に深層強化学習の学習空間を用意し,(2)パレートフロントを用いた候補行動群の選出を行った.候補行動群に対して(3)タスクの優先度に基づいた最終行動の選択手法を提案し(4)連続環境を想定したシミュレーション実験により有用性を示した. (1):タスク毎に深層強化学習の学習空間を用意し,深層学習のパフォーマンスを向上させるためのハードウェアアクセラレータであるCoral USB Acceleraotrを用いて学習させるシステムを構築した. (2):タスク毎の独立した学習によりタスク数と同等の候補行動を得ることができる.その候補行動に対し,各タスクでの評価を再計算し,ひとつの候補行動に対しタスク数の評価を得る.それによりタスク数と同数の次元をもつ評価空間において候補行動のプロットを行い,パレートフロントを構成し,候補行動の絞り込みを行うアルゴリズムの実装を行った. (3):直面する現在の環境状態に対して求められる各タスクの重要度に基づいて,パレートフロントから一意に行動を決定する手法を提案した.具体的には求められる各タスクの重要度を表す目標評価ベクトルとパレートフロントのうちで最もユークリッド距離の短い評価を示す行動を求め,最終行動として決定するアルゴリズムの実装を行った. (4):連続環境下を模したシミュレーション実験を用いて構築した行動決定手法の検証実験を行い,その有用性を検証した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ハードウェアアクセラレータとしてCoral USB Acceleratorを用いた深層強化学習の実装を行っており,複数の深層強化学習を用いた多目的意思決定手法の提案,実装,シミュレーション実験を行っている.またsonyのtoio, aibo, 3Dプリンタによる小型ロボットの作成について検討,事前実験を行っており概ね順調である.
|
Strategy for Future Research Activity |
深層強化学習を用いた基本システムは構築できており,細かな修正とともにパフォーマンスを向上させるためのアルゴリズムの再検討を行っていく.具体的にはパレートフロントから最終行動を一意に決定した後,より効率的な行動の実現のために設定された行動に基づいた中間行動を作成し用いる場合がある.しかし中間行動は一時的なものであり使用後は破棄されるため学習の蓄積が行われず長期的に見た場合非効率となる.そこで必要に応じて中間行動を生成,保存し学習を行うアルゴリズムを検討している. また現在の実験は室内・工場・寒冷地などの極限環境を対象としてシミュレーション実験を作成しているが,Gymnasiumによる環境構築を行い,他の研究との比較を容易にする予定である.仮想環境に加えて実環境の使用も検討する.
|
Causes of Carryover |
実機実験のための実機購入費または実機制作のため部品代として使用する.実機購入としては小型ロボットtoio:20千円,aibo:300千円,中型クローラ型ロボット700千円が考えられる. また学会参加費として国内学会1件,国際学会1件を予定しており,論文の投稿を1件予定している.それぞれ100千円x1,200千円x1および20千円x1を予定している.
|
Research Products
(2 results)