研究課題/領域番号 |
21K12069
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 室蘭工業大学 |
研究代表者 |
倉重 健太郎 室蘭工業大学, 大学院工学研究科, 准教授 (30352230)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2024年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
|
キーワード | 深層強化学習 / 多目的意思決定 / 行動学習 |
研究開始時の研究の概要 |
実機ロボットの行動学習では人が望むタスクに加えて自身の安定性など複数のタスクを同時に満たす必要がある.一方で時々刻々変化する各タスクの重要性を考慮して行動を学習・決定することは難しい.本研究では,深層強化学習における行動算出ネットワークを用いることで各タスクに対する候補行動の行動価値を計算し非劣解集合を求め,各タスクに対する重要性から最終行動を決定するアルゴリズムを構築する.
|
研究実績の概要 |
多目的環境下における均衡的行動の決定手法の提案を目指し,本年度では(1)タスク毎に深層強化学習の学習空間を用意し,(2)パレートフロントを用いた候補行動群の選出を行った.候補行動群に対して(3)タスクの優先度に基づいた最終行動の選択手法を提案し(4)連続環境を想定したシミュレーション実験により有用性を示した. (1):タスク毎に深層強化学習の学習空間を用意し,深層学習のパフォーマンスを向上させるためのハードウェアアクセラレータであるCoral USB Acceleraotrを用いて学習させるシステムを構築した. (2):タスク毎の独立した学習によりタスク数と同等の候補行動を得ることができる.その候補行動に対し,各タスクでの評価を再計算し,ひとつの候補行動に対しタスク数の評価を得る.それによりタスク数と同数の次元をもつ評価空間において候補行動のプロットを行い,パレートフロントを構成し,候補行動の絞り込みを行うアルゴリズムの実装を行った. (3):直面する現在の環境状態に対して求められる各タスクの重要度に基づいて,パレートフロントから一意に行動を決定する手法を提案した.具体的には求められる各タスクの重要度を表す目標評価ベクトルとパレートフロントのうちで最もユークリッド距離の短い評価を示す行動を求め,最終行動として決定するアルゴリズムの実装を行った. (4):連続環境下を模したシミュレーション実験を用いて構築した行動決定手法の検証実験を行い,その有用性を検証した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ハードウェアアクセラレータとしてCoral USB Acceleratorを用いた深層強化学習の実装を行っており,複数の深層強化学習を用いた多目的意思決定手法の提案,実装,シミュレーション実験を行っている.またsonyのtoio, aibo, 3Dプリンタによる小型ロボットの作成について検討,事前実験を行っており概ね順調である.
|
今後の研究の推進方策 |
深層強化学習を用いた基本システムは構築できており,細かな修正とともにパフォーマンスを向上させるためのアルゴリズムの再検討を行っていく.具体的にはパレートフロントから最終行動を一意に決定した後,より効率的な行動の実現のために設定された行動に基づいた中間行動を作成し用いる場合がある.しかし中間行動は一時的なものであり使用後は破棄されるため学習の蓄積が行われず長期的に見た場合非効率となる.そこで必要に応じて中間行動を生成,保存し学習を行うアルゴリズムを検討している. また現在の実験は室内・工場・寒冷地などの極限環境を対象としてシミュレーション実験を作成しているが,Gymnasiumによる環境構築を行い,他の研究との比較を容易にする予定である.仮想環境に加えて実環境の使用も検討する.
|