Project/Area Number |
23K11276
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
河野 仁 東京電機大学, 工学部, 准教授 (70758367)
|
Co-Investigator(Kenkyū-buntansha) |
藤井 浩光 千葉工業大学, 先進工学部, 准教授 (30781215)
池 勇勲 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (90823766)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2025: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
|
Keywords | 転移強化学習 / 知識選択 / 活性化拡散モデル / トポロジカルソート / 強化学習 / 転移学習 / 選択過程解析 |
Outline of Research at the Start |
本研究では初めに知識選択過程の解析手法の検討を開始し,計算機クラスタを用いながら手法を検討する.また知識選択に用いる計算機クラスタの計算ノードを増設し,また高精細な環境情報を得るために実験用実ロボットのセンサを選定実装する.さらに,機能増設した計算機クラスタを用いて手法のスケーラビリティの検証を行う.大きな通信遅延が存在する環境における実ロボットを用いた実際の知識選択過程の解析にチャレンジする.最終的には移動ロボットを知識選択用の計算機クラスタに接続し,明らかな通信遅延が発生する状態における知識選択過程の解析を,提案手法を用いて行う.
|
Outline of Annual Research Achievements |
環境やタスクに対して既獲得知識を選択して適応的に振舞うことのできる転移強化学習手法として,著者らは認知心理学の知見を応用した活性化拡散モデルを活用した転移強化学習SAP-netを開発している.SAP-netは知識選択のための計算処理を並列計算機に実装することを前提としており,知識選択の結果に対して選択過程の説明が難しい.そこで,本研究の令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し,トポロジカルソートで選択過程を近似的に説明する手法を開発した.また,並列計算として実装されたSAP-netをParallel SAP-net(以下P-SAP)と呼び,トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net(以下S-SAP)と区別する.令和5年度では,知識選択における計算途中の値や選択結果における値の比較を行い,P-SAPとS-SAPが近いことを示した. また,SAP-netの実機実験のための実装状況としては,小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて,次年度に向けた準備を進めた.この実装プロセスにおいて,静的環境でロボットが強化学習した結果(知識)を,動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった.これは言い換えると,動的環境における学習を行わなくても,様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である. さらに,SAP-net計算用の並列計算機の追加開発を実施した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し,トポロジカルソートで選択過程を近似的に説明する手法を開発した.また,並列計算として実装されたSAP-netをParallel SAP-net(以下P-SAP)と呼び,トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net(以下S-SAP)と区別する.令和5年度では,知識選択における計算途中の値や選択結果における値の比較を行い,P-SAPとS-SAPが近いことを示した.この成果は令和6年度の国内学会にて発表予定である. また,SAP-netの実機実験のための実装状況としては,小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて,次年度に向けた準備を進めた.この実装プロセスにおいて,静的環境でロボットが強化学習した結果(知識)を,動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった.これは言い換えると,動的環境における学習を行わなくても,様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である.この知見は令和5年度の国内学会で発表済みである. さらに,SAP-net計算用の並列計算機の追加開発を実施した.しかし,電子機器の価格高騰や調達までの時間が延び,計算機環境の整備には時間を要したが,令和6年度も引き続き実験環境等の整備を続けていく.
|
Strategy for Future Research Activity |
まず令和6年度では,整備した計算機環境を用いて引き続きS-SAPによりP-SAPが近似的に説明可能であることを検証していく. また,実機実装の準備も継続して行い,行為主体となるロボットと知識選択主体となるサーバ間の通信に時間遅延が発生する状況におけるSAP-netの動作を解析していく. さらには,新たに得られた知見として,静的環境で獲得した知識を連続的に選択することで動的環境へ適応できる現象を深掘りし,SAP-netの環境適応性能についても議論していく.
|