深層強化学習による多目的環境下での調和的行動の実現
Project/Area Number |
21K12069
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Muroran Institute of Technology |
Principal Investigator |
倉重 健太郎 室蘭工業大学, 大学院工学研究科, 准教授 (30352230)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
|
Keywords | 深層強化学習 / 多目的意思決定 / 行動学習 |
Outline of Research at the Start |
実機ロボットの行動学習では人が望むタスクに加えて自身の安定性など複数のタスクを同時に満たす必要がある.一方で時々刻々変化する各タスクの重要性を考慮して行動を学習・決定することは難しい.本研究では,深層強化学習における行動算出ネットワークを用いることで各タスクに対する候補行動の行動価値を計算し非劣解集合を求め,各タスクに対する重要性から最終行動を決定するアルゴリズムを構築する.
|
Outline of Annual Research Achievements |
多目的環境下における均衡的行動の決定手法を目指し,本年度では(1)タスクの追加・削除・効率的な追加タスクの学習手法についての提案および(2)深層強化学習の実装・実験を行い,(3)実機実験に向けた実ロボットの検討を行った. (1)ではタスクに階層構造を持たせ,既存のタスクを組み合わせて新たなタスクを定義する手法について提案した.上位となる新規のタスクは下位となる既存のタスクに対する優先度の制御を行動とみなし,行動学習を行うことで上位のタスク達成を行う.また独立のタスク同士ではこれまで通り優先度の決定を独立に行い,全体として従来提案してきた優先度に基づく行動調停を行う.これにより漸次的に複雑なタスク達成を実現する手法を提案した.また多数のタスクを扱うことから優先度決定のための要因を従来の1次元から多次元に拡張する必要が生じた.そこで優先度決定のために用いている区分線形関数を多次元に拡張しつつ,より簡便に多次元入力を扱える他の関数の検討を行った. (2)については(1)で提案した手法に深層学習を組み込むために,深層強化学習の実装を行い,複数の学習空間の協調によって単一の行動を出力するシステムの実装を行い実験により稼働を確認した.また深層学習のハードウェアアクセラレーションとして,USB経由で接続される簡易デバイスを用いて学習時間短縮が可能であることを確認した. (3)についてはSBCをベースとした実ロボットについて,製作・完成品の購入の両面から検討を行っており,半導体不足の状況に応じてi)クローラ型製作,ii)クローラ型購入・改造,iii)脚式製作,iv)人形購入と選択肢を検討している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
深層強化学習の実装・実験,新たな手法の提案,実機の検討と進めており概ね順調である.ただし,深層強化学習ではGPGPUなどのハードウェアアクセラレーションによって実験時間に大幅な違いがあり,また実機についてもSBCなど各種ハードウェアが必要となる一方で,半導体部品不足のため購入が遅れる可能性もある.
|
Strategy for Future Research Activity |
今後は,ソフトウェアライブラリを用いて深層強化学習の実験を行いつつ,より高機能なGPGPUを用いたハードウェアアクセラレーションのための準備・実装・実験を行う. また深層強化学習を提案手法に組み込み非劣解集合の生成と優先度に基づいた最終行動の決定についてアルゴリズム化を行う. 実験については,実ロボットの選定・実機実験の実施を行いつつ,状況に応じてGymnasiumによる仮想環境での実験を行う.
|
Report
(2 results)
Research Products
(3 results)