深層強化学習による多目的環境下での調和的行動の実現

Research Project

Project/Area Number	21K12069
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61050:Intelligent robotics-related
Research Institution	Muroran Institute of Technology
Principal Investigator	倉重健太郎室蘭工業大学, 大学院工学研究科, 准教授 (30352230)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000) Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000) Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2021: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Keywords	深層強化学習 / 多目的意思決定 / 行動学習
Outline of Research at the Start	実機ロボットの行動学習では人が望むタスクに加えて自身の安定性など複数のタスクを同時に満たす必要がある．一方で時々刻々変化する各タスクの重要性を考慮して行動を学習・決定することは難しい．本研究では，深層強化学習における行動算出ネットワークを用いることで各タスクに対する候補行動の行動価値を計算し非劣解集合を求め，各タスクに対する重要性から最終行動を決定するアルゴリズムを構築する．
Outline of Annual Research Achievements	多目的環境下における均衡的行動の決定手法の提案を目指し，本年度では(1)タスク毎に深層強化学習の学習空間を用意し，(2)パレートフロントを用いた候補行動群の選出を行った．候補行動群に対して(3)タスクの優先度に基づいた最終行動の選択手法を提案し(4)連続環境を想定したシミュレーション実験により有用性を示した． (1):タスク毎に深層強化学習の学習空間を用意し，深層学習のパフォーマンスを向上させるためのハードウェアアクセラレータであるCoral USB Acceleraotrを用いて学習させるシステムを構築した． (2):タスク毎の独立した学習によりタスク数と同等の候補行動を得ることができる．その候補行動に対し，各タスクでの評価を再計算し，ひとつの候補行動に対しタスク数の評価を得る．それによりタスク数と同数の次元をもつ評価空間において候補行動のプロットを行い，パレートフロントを構成し，候補行動の絞り込みを行うアルゴリズムの実装を行った． (3):直面する現在の環境状態に対して求められる各タスクの重要度に基づいて，パレートフロントから一意に行動を決定する手法を提案した．具体的には求められる各タスクの重要度を表す目標評価ベクトルとパレートフロントのうちで最もユークリッド距離の短い評価を示す行動を求め，最終行動として決定するアルゴリズムの実装を行った． (4):連続環境下を模したシミュレーション実験を用いて構築した行動決定手法の検証実験を行い，その有用性を検証した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason ハードウェアアクセラレータとしてCoral USB Acceleratorを用いた深層強化学習の実装を行っており，複数の深層強化学習を用いた多目的意思決定手法の提案，実装，シミュレーション実験を行っている．またsonyのtoio, aibo, 3Dプリンタによる小型ロボットの作成について検討，事前実験を行っており概ね順調である．
Strategy for Future Research Activity	深層強化学習を用いた基本システムは構築できており，細かな修正とともにパフォーマンスを向上させるためのアルゴリズムの再検討を行っていく．具体的にはパレートフロントから最終行動を一意に決定した後，より効率的な行動の実現のために設定された行動に基づいた中間行動を作成し用いる場合がある．しかし中間行動は一時的なものであり使用後は破棄されるため学習の蓄積が行われず長期的に見た場合非効率となる．そこで必要に応じて中間行動を生成，保存し学習を行うアルゴリズムを検討している．また現在の実験は室内・工場・寒冷地などの極限環境を対象としてシミュレーション実験を作成しているが，Gymnasiumによる環境構築を行い，他の研究との比較を容易にする予定である．仮想環境に加えて実環境の使用も検討する．

Report

(3 results)

Research Products
(5 results)

All 2023 2022 2021 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (3 results) Remarks (1 results)

[Journal Article] Proposal of Decision-Making Method Under Multi-Task Based on Q-Value Weighted by Task Priority2022
- Author(s)
  Hanagata Tomomi、Muroran Institute of Technology 27-1 Mizumoto-cho, Muroran, Hokkaido 050-8585, Japan、Kurashige Kentarou
- Journal Title
  
  Journal of Advanced Computational Intelligence and Intelligent Informatics
  
  Volume: 26 Issue: 5 Pages: 706-714
- DOI
  10.20965/jaciii.2022.p0706
- ISSN
  1343-0130, 1883-8014
- Year and Date
  2022-09-20
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Presentation] タスクの優先度に基づくマルチタスク強化学習の提案 ―優先度算出に用いる区分線形関数の自己調整による適応性の向上―2023
- Author(s)
  藤山龍希, 倉重健太郎
- Organizer
  第31回インテリジェント・システム・シンポジウム講演論文集
- Related Report
  2023 Research-status Report
[Presentation] タスクの優先度に基づくマルチタスク強化学習の意思決定手法の提案 -区分線形関数を用いた優先度の設計による環境への適応性の向上-2022
- Author(s)
  藤山龍希
- Organizer
  第30回インテリジェント・システム・シンポジウム
- Related Report
  2022 Research-status Report
[Presentation] タスクの優先度で重みづけされた行動価値に基づく複数タスク下における意思決定手法の提案2021
- Author(s)
  花形知美, 倉重健太郎, 上林拓馬
- Organizer
  インテリジェント・システム・シンポジウム2021
- Related Report
  2021 Research-status Report
[Remarks] 室蘭工業大学研究者データベース
- URL
  https://rdsoran.muroran-it.ac.jp/html/100000178_ja.html
- Related Report
  2023 Research-status Report

深層強化学習による多目的環境下での調和的行動の実現

Principal Investigator

倉重 健太郎 室蘭工業大学, 大学院工学研究科, 准教授 (30352230)

¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Proposal of Decision-Making Method Under Multi-Task Based on Q-Value Weighted by Task Priority2022

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Presentation] タスクの優先度に基づくマルチタスク強化学習の提案 ―優先度算出に用いる区分線形関数の自己調整による適応性の向上―2023

Author(s)

Organizer

Related Report

[Presentation] タスクの優先度に基づくマルチタスク強化学習の意思決定手法の提案 -区分線形関数を用いた優先度の設計による環境への適応性の向上-2022

Author(s)

Organizer

Related Report

[Presentation] タスクの優先度で重みづけされた行動価値に基づく複数タスク下における意思決定手法の提案2021

Author(s)

Organizer

Related Report

[Remarks] 室蘭工業大学研究者データベース

URL

Related Report

倉重健太郎室蘭工業大学, 大学院工学研究科, 准教授 (30352230)