知識選択型転移強化学習のための選択動作過程解析手法の開発

Research Project

Project/Area Number	23K11276
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61050:Intelligent robotics-related
Research Institution	Tokyo Denki University
Principal Investigator	河野仁東京電機大学, 工学部, 准教授 (70758367)
Co-Investigator(Kenkyū-buntansha)	藤井浩光千葉工業大学, 先進工学部, 准教授 (30781215) 池勇勲北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (90823766)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000) Fiscal Year 2025: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2023: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Keywords	転移強化学習 / 知識選択 / 活性化拡散モデル / トポロジカルソート / 強化学習 / 転移学習 / 選択過程解析
Outline of Research at the Start	本研究では初めに知識選択過程の解析手法の検討を開始し，計算機クラスタを用いながら手法を検討する．また知識選択に用いる計算機クラスタの計算ノードを増設し，また高精細な環境情報を得るために実験用実ロボットのセンサを選定実装する．さらに，機能増設した計算機クラスタを用いて手法のスケーラビリティの検証を行う．大きな通信遅延が存在する環境における実ロボットを用いた実際の知識選択過程の解析にチャレンジする．最終的には移動ロボットを知識選択用の計算機クラスタに接続し，明らかな通信遅延が発生する状態における知識選択過程の解析を，提案手法を用いて行う．
Outline of Annual Research Achievements	環境やタスクに対して既獲得知識を選択して適応的に振舞うことのできる転移強化学習手法として，著者らは認知心理学の知見を応用した活性化拡散モデルを活用した転移強化学習SAP-netを開発している．SAP-netは知識選択のための計算処理を並列計算機に実装することを前提としており，知識選択の結果に対して選択過程の説明が難しい．そこで，本研究の令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し，トポロジカルソートで選択過程を近似的に説明する手法を開発した．また，並列計算として実装されたSAP-netをParallel SAP-net（以下P-SAP）と呼び，トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net（以下S-SAP）と区別する．令和5年度では，知識選択における計算途中の値や選択結果における値の比較を行い，P-SAPとS-SAPが近いことを示した．また，SAP-netの実機実験のための実装状況としては，小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて，次年度に向けた準備を進めた．この実装プロセスにおいて，静的環境でロボットが強化学習した結果（知識）を，動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった．これは言い換えると，動的環境における学習を行わなくても，様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である．さらに，SAP-net計算用の並列計算機の追加開発を実施した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し，トポロジカルソートで選択過程を近似的に説明する手法を開発した．また，並列計算として実装されたSAP-netをParallel SAP-net（以下P-SAP）と呼び，トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net（以下S-SAP）と区別する．令和5年度では，知識選択における計算途中の値や選択結果における値の比較を行い，P-SAPとS-SAPが近いことを示した．この成果は令和6年度の国内学会にて発表予定である．また，SAP-netの実機実験のための実装状況としては，小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて，次年度に向けた準備を進めた．この実装プロセスにおいて，静的環境でロボットが強化学習した結果（知識）を，動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった．これは言い換えると，動的環境における学習を行わなくても，様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である．この知見は令和5年度の国内学会で発表済みである．さらに，SAP-net計算用の並列計算機の追加開発を実施した．しかし，電子機器の価格高騰や調達までの時間が延び，計算機環境の整備には時間を要したが，令和6年度も引き続き実験環境等の整備を続けていく．
Strategy for Future Research Activity	まず令和6年度では，整備した計算機環境を用いて引き続きS-SAPによりP-SAPが近似的に説明可能であることを検証していく．また，実機実装の準備も継続して行い，行為主体となるロボットと知識選択主体となるサーバ間の通信に時間遅延が発生する状況におけるSAP-netの動作を解析していく．さらには，新たに得られた知見として，静的環境で獲得した知識を連続的に選択することで動的環境へ適応できる現象を深掘りし，SAP-netの環境適応性能についても議論していく．

Report

(1 results)

2023 Research-status Report

Research Products
(4 results)

All 2024 2023

All Journal Article (1 results) Presentation (3 results) (of which Invited: 1 results)

[Journal Article] 強化学習と計算機シミュレーション2024
- Author(s)
  河野仁
- Journal Title
  
  信学技報
  
  Volume: A・P2023-170 Pages: 58-61
- Related Report
  2023 Research-status Report
[Presentation] 強化学習と計算機シミュレーション2024
- Author(s)
  河野仁
- Organizer
  電子情報通信学会アンテナ・伝播研究専門委員会
- Related Report
  2023 Research-status Report
[Presentation] 知識選択型転移強化学習を用いた移動ロボットによる動的障害物回避2023
- Author(s)
  高矢空，河野仁，須賀哉斗，鳥谷部悠希，池勇勳，藤井浩光，鈴木剛
- Organizer
  2023年電気学会電子・情報・システム部門大会
- Related Report
  2023 Research-status Report
[Presentation] 強化学習の概要と計算機シミュレーション2023
- Author(s)
  河野仁
- Organizer
  電子情報通信学会通信ソサイエティ革新的無線通信技術に関する横断型研究会 MIKA2023
- Related Report
  2023 Research-status Report
- Invited

知識選択型転移強化学習のための選択動作過程解析手法の開発

Principal Investigator

河野 仁 東京電機大学, 工学部, 准教授 (70758367)

¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] 強化学習と計算機シミュレーション2024

Author(s)

Journal Title

Related Report

[Presentation] 強化学習と計算機シミュレーション2024

Author(s)

Organizer

Related Report

[Presentation] 知識選択型転移強化学習を用いた移動ロボットによる動的障害物回避2023

Author(s)

Organizer

Related Report

[Presentation] 強化学習の概要と計算機シミュレーション2023

Author(s)

Organizer

Related Report

河野仁東京電機大学, 工学部, 准教授 (70758367)