深層強化学習による多目的環境下での調和的行動の実現

研究課題

研究課題/領域番号	21K12069
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61050:知能ロボティクス関連
研究機関	室蘭工業大学
研究代表者	倉重健太郎室蘭工業大学, 大学院工学研究科, 准教授 (30352230)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	3,770千円 (直接経費: 2,900千円、間接経費: 870千円) 2024年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2021年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
キーワード	深層強化学習 / 多目的意思決定 / 行動学習
研究開始時の研究の概要	実機ロボットの行動学習では人が望むタスクに加えて自身の安定性など複数のタスクを同時に満たす必要がある．一方で時々刻々変化する各タスクの重要性を考慮して行動を学習・決定することは難しい．本研究では，深層強化学習における行動算出ネットワークを用いることで各タスクに対する候補行動の行動価値を計算し非劣解集合を求め，各タスクに対する重要性から最終行動を決定するアルゴリズムを構築する．
研究実績の概要	多目的環境下における均衡的行動の決定手法の提案を目指し，本年度では(1)タスク毎に深層強化学習の学習空間を用意し，(2)パレートフロントを用いた候補行動群の選出を行った．候補行動群に対して(3)タスクの優先度に基づいた最終行動の選択手法を提案し(4)連続環境を想定したシミュレーション実験により有用性を示した． (1):タスク毎に深層強化学習の学習空間を用意し，深層学習のパフォーマンスを向上させるためのハードウェアアクセラレータであるCoral USB Acceleraotrを用いて学習させるシステムを構築した． (2):タスク毎の独立した学習によりタスク数と同等の候補行動を得ることができる．その候補行動に対し，各タスクでの評価を再計算し，ひとつの候補行動に対しタスク数の評価を得る．それによりタスク数と同数の次元をもつ評価空間において候補行動のプロットを行い，パレートフロントを構成し，候補行動の絞り込みを行うアルゴリズムの実装を行った． (3):直面する現在の環境状態に対して求められる各タスクの重要度に基づいて，パレートフロントから一意に行動を決定する手法を提案した．具体的には求められる各タスクの重要度を表す目標評価ベクトルとパレートフロントのうちで最もユークリッド距離の短い評価を示す行動を求め，最終行動として決定するアルゴリズムの実装を行った． (4):連続環境下を模したシミュレーション実験を用いて構築した行動決定手法の検証実験を行い，その有用性を検証した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由ハードウェアアクセラレータとしてCoral USB Acceleratorを用いた深層強化学習の実装を行っており，複数の深層強化学習を用いた多目的意思決定手法の提案，実装，シミュレーション実験を行っている．またsonyのtoio, aibo, 3Dプリンタによる小型ロボットの作成について検討，事前実験を行っており概ね順調である．
今後の研究の推進方策	深層強化学習を用いた基本システムは構築できており，細かな修正とともにパフォーマンスを向上させるためのアルゴリズムの再検討を行っていく．具体的にはパレートフロントから最終行動を一意に決定した後，より効率的な行動の実現のために設定された行動に基づいた中間行動を作成し用いる場合がある．しかし中間行動は一時的なものであり使用後は破棄されるため学習の蓄積が行われず長期的に見た場合非効率となる．そこで必要に応じて中間行動を生成，保存し学習を行うアルゴリズムを検討している．また現在の実験は室内・工場・寒冷地などの極限環境を対象としてシミュレーション実験を作成しているが，Gymnasiumによる環境構築を行い，他の研究との比較を容易にする予定である．仮想環境に加えて実環境の使用も検討する．

報告書

(3件)

研究成果
(5件)

すべて 2023 2022 2021 その他

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (3件) 備考 (1件)

[雑誌論文] Proposal of Decision-Making Method Under Multi-Task Based on Q-Value Weighted by Task Priority2022
- 著者名/発表者名
  Hanagata Tomomi、Muroran Institute of Technology 27-1 Mizumoto-cho, Muroran, Hokkaido 050-8585, Japan、Kurashige Kentarou
- 雑誌名
  
  Journal of Advanced Computational Intelligence and Intelligent Informatics
  
  巻: 26 号: 5 ページ: 706-714
- DOI
  10.20965/jaciii.2022.p0706
- ISSN
  1343-0130, 1883-8014
- 年月日
  2022-09-20
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] タスクの優先度に基づくマルチタスク強化学習の提案 ―優先度算出に用いる区分線形関数の自己調整による適応性の向上―2023
- 著者名/発表者名
  藤山龍希, 倉重健太郎
- 学会等名
  第31回インテリジェント・システム・シンポジウム講演論文集
- 関連する報告書
  2023 実施状況報告書
[学会発表] タスクの優先度に基づくマルチタスク強化学習の意思決定手法の提案 -区分線形関数を用いた優先度の設計による環境への適応性の向上-2022
- 著者名/発表者名
  藤山龍希
- 学会等名
  第30回インテリジェント・システム・シンポジウム
- 関連する報告書
  2022 実施状況報告書
[学会発表] タスクの優先度で重みづけされた行動価値に基づく複数タスク下における意思決定手法の提案2021
- 著者名/発表者名
  花形知美, 倉重健太郎, 上林拓馬
- 学会等名
  インテリジェント・システム・シンポジウム2021
- 関連する報告書
  2021 実施状況報告書
[備考] 室蘭工業大学研究者データベース
- URL
  https://rdsoran.muroran-it.ac.jp/html/100000178_ja.html
- 関連する報告書
  2023 実施状況報告書

深層強化学習による多目的環境下での調和的行動の実現

研究代表者

倉重 健太郎 室蘭工業大学, 大学院工学研究科, 准教授 (30352230)

3,770千円 (直接経費: 2,900千円、間接経費: 870千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Proposal of Decision-Making Method Under Multi-Task Based on Q-Value Weighted by Task Priority2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] タスクの優先度に基づくマルチタスク強化学習の提案 ―優先度算出に用いる区分線形関数の自己調整による適応性の向上―2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] タスクの優先度に基づくマルチタスク強化学習の意思決定手法の提案 -区分線形関数を用いた優先度の設計による環境への適応性の向上-2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] タスクの優先度で重みづけされた行動価値に基づく複数タスク下における意思決定手法の提案2021

著者名/発表者名

学会等名

関連する報告書

[備考] 室蘭工業大学研究者データベース

URL

関連する報告書

倉重健太郎室蘭工業大学, 大学院工学研究科, 准教授 (30352230)