2022 年度実施状況報告書

深層強化学習による多目的環境下での調和的行動の実現

研究課題

研究課題/領域番号	21K12069
研究機関	室蘭工業大学
研究代表者	倉重健太郎室蘭工業大学, 大学院工学研究科, 准教授 (30352230)
研究期間 (年度)	2021-04-01 – 2025-03-31
キーワード	深層強化学習 / 多目的意思決定 / 行動学習
研究実績の概要	多目的環境下における均衡的行動の決定手法を目指し，本年度では(1)タスクの追加・削除・効率的な追加タスクの学習手法についての提案および(2)深層強化学習の実装・実験を行い，(3)実機実験に向けた実ロボットの検討を行った． (1)ではタスクに階層構造を持たせ，既存のタスクを組み合わせて新たなタスクを定義する手法について提案した．上位となる新規のタスクは下位となる既存のタスクに対する優先度の制御を行動とみなし，行動学習を行うことで上位のタスク達成を行う．また独立のタスク同士ではこれまで通り優先度の決定を独立に行い，全体として従来提案してきた優先度に基づく行動調停を行う．これにより漸次的に複雑なタスク達成を実現する手法を提案した．また多数のタスクを扱うことから優先度決定のための要因を従来の1次元から多次元に拡張する必要が生じた．そこで優先度決定のために用いている区分線形関数を多次元に拡張しつつ，より簡便に多次元入力を扱える他の関数の検討を行った． (2)については(1)で提案した手法に深層学習を組み込むために，深層強化学習の実装を行い，複数の学習空間の協調によって単一の行動を出力するシステムの実装を行い実験により稼働を確認した．また深層学習のハードウェアアクセラレーションとして，USB経由で接続される簡易デバイスを用いて学習時間短縮が可能であることを確認した． (3)についてはSBCをベースとした実ロボットについて，製作・完成品の購入の両面から検討を行っており，半導体不足の状況に応じてi)クローラ型製作,ii)クローラ型購入・改造,iii)脚式製作,iv)人形購入と選択肢を検討している．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由深層強化学習の実装・実験，新たな手法の提案，実機の検討と進めており概ね順調である．ただし，深層強化学習ではGPGPUなどのハードウェアアクセラレーションによって実験時間に大幅な違いがあり，また実機についてもSBCなど各種ハードウェアが必要となる一方で，半導体部品不足のため購入が遅れる可能性もある．
今後の研究の推進方策	今後は，ソフトウェアライブラリを用いて深層強化学習の実験を行いつつ，より高機能なGPGPUを用いたハードウェアアクセラレーションのための準備・実装・実験を行う．また深層強化学習を提案手法に組み込み非劣解集合の生成と優先度に基づいた最終行動の決定についてアルゴリズム化を行う．実験については，実ロボットの選定・実機実験の実施を行いつつ，状況に応じてGymnasiumによる仮想環境での実験を行う．
次年度使用額が生じた理由	学会発表・投稿論文等は予定通り予算使用したが，半導体部品不足のためGPGPU関係および実機のメイン部品となるSBCに関する購入が予定通り行われなかった．当該部品については実機検討とともに次年度に購入予定である．