知識選択型転移強化学習のための選択動作過程解析手法の開発

研究課題

研究課題/領域番号	23K11276
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61050:知能ロボティクス関連
研究機関	東京電機大学
研究代表者	河野仁東京電機大学, 工学部, 准教授 (70758367)
研究分担者	藤井浩光千葉工業大学, 先進工学部, 准教授 (30781215) 池勇勲北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (90823766)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円) 2025年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 3,250千円 (直接経費: 2,500千円、間接経費: 750千円)
キーワード	転移強化学習 / 知識選択 / 活性化拡散モデル / トポロジカルソート / 強化学習 / 転移学習 / 選択過程解析
研究開始時の研究の概要	本研究では初めに知識選択過程の解析手法の検討を開始し，計算機クラスタを用いながら手法を検討する．また知識選択に用いる計算機クラスタの計算ノードを増設し，また高精細な環境情報を得るために実験用実ロボットのセンサを選定実装する．さらに，機能増設した計算機クラスタを用いて手法のスケーラビリティの検証を行う．大きな通信遅延が存在する環境における実ロボットを用いた実際の知識選択過程の解析にチャレンジする．最終的には移動ロボットを知識選択用の計算機クラスタに接続し，明らかな通信遅延が発生する状態における知識選択過程の解析を，提案手法を用いて行う．
研究実績の概要	環境やタスクに対して既獲得知識を選択して適応的に振舞うことのできる転移強化学習手法として，著者らは認知心理学の知見を応用した活性化拡散モデルを活用した転移強化学習SAP-netを開発している．SAP-netは知識選択のための計算処理を並列計算機に実装することを前提としており，知識選択の結果に対して選択過程の説明が難しい．そこで，本研究の令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し，トポロジカルソートで選択過程を近似的に説明する手法を開発した．また，並列計算として実装されたSAP-netをParallel SAP-net（以下P-SAP）と呼び，トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net（以下S-SAP）と区別する．令和5年度では，知識選択における計算途中の値や選択結果における値の比較を行い，P-SAPとS-SAPが近いことを示した．また，SAP-netの実機実験のための実装状況としては，小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて，次年度に向けた準備を進めた．この実装プロセスにおいて，静的環境でロボットが強化学習した結果（知識）を，動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった．これは言い換えると，動的環境における学習を行わなくても，様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である．さらに，SAP-net計算用の並列計算機の追加開発を実施した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し，トポロジカルソートで選択過程を近似的に説明する手法を開発した．また，並列計算として実装されたSAP-netをParallel SAP-net（以下P-SAP）と呼び，トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net（以下S-SAP）と区別する．令和5年度では，知識選択における計算途中の値や選択結果における値の比較を行い，P-SAPとS-SAPが近いことを示した．この成果は令和6年度の国内学会にて発表予定である．また，SAP-netの実機実験のための実装状況としては，小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて，次年度に向けた準備を進めた．この実装プロセスにおいて，静的環境でロボットが強化学習した結果（知識）を，動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった．これは言い換えると，動的環境における学習を行わなくても，様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である．この知見は令和5年度の国内学会で発表済みである．さらに，SAP-net計算用の並列計算機の追加開発を実施した．しかし，電子機器の価格高騰や調達までの時間が延び，計算機環境の整備には時間を要したが，令和6年度も引き続き実験環境等の整備を続けていく．
今後の研究の推進方策	まず令和6年度では，整備した計算機環境を用いて引き続きS-SAPによりP-SAPが近似的に説明可能であることを検証していく．また，実機実装の準備も継続して行い，行為主体となるロボットと知識選択主体となるサーバ間の通信に時間遅延が発生する状況におけるSAP-netの動作を解析していく．さらには，新たに得られた知見として，静的環境で獲得した知識を連続的に選択することで動的環境へ適応できる現象を深掘りし，SAP-netの環境適応性能についても議論していく．

報告書

(1件)

2023 実施状況報告書

研究成果
(4件)

すべて 2024 2023

すべて雑誌論文 (1件) 学会発表 (3件) (うち招待講演 1件)

[雑誌論文] 強化学習と計算機シミュレーション2024
- 著者名/発表者名
  河野仁
- 雑誌名
  
  信学技報
  
  巻: A・P2023-170 ページ: 58-61
- 関連する報告書
  2023 実施状況報告書
[学会発表] 強化学習と計算機シミュレーション2024
- 著者名/発表者名
  河野仁
- 学会等名
  電子情報通信学会アンテナ・伝播研究専門委員会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 知識選択型転移強化学習を用いた移動ロボットによる動的障害物回避2023
- 著者名/発表者名
  高矢空，河野仁，須賀哉斗，鳥谷部悠希，池勇勳，藤井浩光，鈴木剛
- 学会等名
  2023年電気学会電子・情報・システム部門大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 強化学習の概要と計算機シミュレーション2023
- 著者名/発表者名
  河野仁
- 学会等名
  電子情報通信学会通信ソサイエティ革新的無線通信技術に関する横断型研究会 MIKA2023
- 関連する報告書
  2023 実施状況報告書
- 招待講演

知識選択型転移強化学習のための選択動作過程解析手法の開発

研究代表者

河野 仁 東京電機大学, 工学部, 准教授 (70758367)

4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 強化学習と計算機シミュレーション2024

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 強化学習と計算機シミュレーション2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 知識選択型転移強化学習を用いた移動ロボットによる動的障害物回避2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 強化学習の概要と計算機シミュレーション2023

著者名/発表者名

学会等名

関連する報告書

河野仁東京電機大学, 工学部, 准教授 (70758367)