• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実施状況報告書

知識選択型転移強化学習のための選択動作過程解析手法の開発

研究課題

研究課題/領域番号 23K11276
研究機関東京電機大学

研究代表者

河野 仁  東京電機大学, 工学部, 准教授 (70758367)

研究分担者 藤井 浩光  千葉工業大学, 先進工学部, 准教授 (30781215)
池 勇勲  北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (90823766)
研究期間 (年度) 2023-04-01 – 2026-03-31
キーワード転移強化学習 / 知識選択 / 活性化拡散モデル / トポロジカルソート
研究実績の概要

環境やタスクに対して既獲得知識を選択して適応的に振舞うことのできる転移強化学習手法として,著者らは認知心理学の知見を応用した活性化拡散モデルを活用した転移強化学習SAP-netを開発している.SAP-netは知識選択のための計算処理を並列計算機に実装することを前提としており,知識選択の結果に対して選択過程の説明が難しい.そこで,本研究の令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し,トポロジカルソートで選択過程を近似的に説明する手法を開発した.また,並列計算として実装されたSAP-netをParallel SAP-net(以下P-SAP)と呼び,トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net(以下S-SAP)と区別する.令和5年度では,知識選択における計算途中の値や選択結果における値の比較を行い,P-SAPとS-SAPが近いことを示した.
また,SAP-netの実機実験のための実装状況としては,小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて,次年度に向けた準備を進めた.この実装プロセスにおいて,静的環境でロボットが強化学習した結果(知識)を,動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった.これは言い換えると,動的環境における学習を行わなくても,様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である.
さらに,SAP-net計算用の並列計算機の追加開発を実施した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

令和5年度成果として並列で実装されるSAP-netをグラフ理論で説明し,トポロジカルソートで選択過程を近似的に説明する手法を開発した.また,並列計算として実装されたSAP-netをParallel SAP-net(以下P-SAP)と呼び,トポロジカルソートで選択過程を近似的に説明できるようにしたSAP-netをSequential SAP-net(以下S-SAP)と区別する.令和5年度では,知識選択における計算途中の値や選択結果における値の比較を行い,P-SAPとS-SAPが近いことを示した.この成果は令和6年度の国内学会にて発表予定である.
また,SAP-netの実機実験のための実装状況としては,小型2輪型移動ロボットへの実装と動的障害物の回避シミュレーションなどを通じて,次年度に向けた準備を進めた.この実装プロセスにおいて,静的環境でロボットが強化学習した結果(知識)を,動的環境で適応的にSAP-netにより知識選択することで環境適応が可能であることが明らかになった.これは言い換えると,動的環境における学習を行わなくても,様々な静的環境に知識を連続的に選択・実行することで動的環境にも適応可能という新たな知見である.この知見は令和5年度の国内学会で発表済みである.
さらに,SAP-net計算用の並列計算機の追加開発を実施した.しかし,電子機器の価格高騰や調達までの時間が延び,計算機環境の整備には時間を要したが,令和6年度も引き続き実験環境等の整備を続けていく.

今後の研究の推進方策

まず令和6年度では,整備した計算機環境を用いて引き続きS-SAPによりP-SAPが近似的に説明可能であることを検証していく.
また,実機実装の準備も継続して行い,行為主体となるロボットと知識選択主体となるサーバ間の通信に時間遅延が発生する状況におけるSAP-netの動作を解析していく.
さらには,新たに得られた知見として,静的環境で獲得した知識を連続的に選択することで動的環境へ適応できる現象を深掘りし,SAP-netの環境適応性能についても議論していく.

次年度使用額が生じた理由

研究代表者が所属機関を異動し,研究開始初年度が大学着任1年度であるため,実験環境の整備やプラットフォームの整備が優先された.そのため,フィールド実験するための旅費や屋外でロボットを動かすためのセンサ購入などを行わなかったため,次年度使用額が生じた.
次年度からは大学間で連携したフィールド実験を行うため,繰り越した金額は使用される予定である.

  • 研究成果

    (4件)

すべて 2024 2023

すべて 雑誌論文 (1件) 学会発表 (3件) (うち招待講演 1件)

  • [雑誌論文] 強化学習と計算機シミュレーション2024

    • 著者名/発表者名
      河野仁
    • 雑誌名

      信学技報

      巻: A・P2023-170 ページ: 58-61

  • [学会発表] 強化学習と計算機シミュレーション2024

    • 著者名/発表者名
      河野仁
    • 学会等名
      電子情報通信学会 アンテナ・伝播研究専門委員会
  • [学会発表] 知識選択型転移強化学習を用いた移動ロボットによる動的障害物回避2023

    • 著者名/発表者名
      高矢空,河野仁,須賀哉斗,鳥谷部悠希,池勇勳,藤井浩光,鈴木剛
    • 学会等名
      2023年電気学会電子・情報・システム部門大会
  • [学会発表] 強化学習の概要と計算機シミュレーション2023

    • 著者名/発表者名
      河野仁
    • 学会等名
      電子情報通信学会 通信ソサイエティ 革新的無線通信技術に関する横断型研究会 MIKA2023
    • 招待講演

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi