2017 年度実績報告書

認知心理学におけるプライミング効果を基にした強化学習ロボットによる知識選択

研究課題

研究課題/領域番号	16K12493
研究機関	東京電機大学
研究代表者	鈴木剛東京電機大学, 工学部, 教授 (00349789)
研究分担者	温文東京大学, 大学院工学系研究科(工学部), 特別研究員 (50646601) 河野仁東京工芸大学, 工学部, 助教 (70758367)
研究期間 (年度)	2016-04-01 – 2018-03-31
キーワード	知識選択 / 活性化拡散モデル / 転移学習 / 強化学習
研究実績の概要	未知環境や動的環境にてロボットを適応的に行動させるために，ロボットが自律的に行動を学習する強化学習や転移学習の研究が行われている．本研究では，転移学習において複数方策から有用な知識を選択することを目的に，人間の記憶や知識の思い出しや再認識を行うメカニズムである活性化拡散モデルを基に，方策の関連性に基づいたカテゴリを用いて活性化拡散モデルを再現した転移学習手法を提案した．本手法では，1)複数方策をカテゴリに分類してネットワークを構築，2)カテゴリからの方策の想起，3)方策の選択，4)活性値の拡散（活性化拡散），5)活性値の減衰，という処理をロボットの行動毎に反復実行し，方策の活性値を調整しながら，転移する有用な方策を選択する．具体的には，1)関連性のある方策を分類したカテゴリを基に方策ネットワークを構築する．また，カテゴリ内で，方策間の関連性を記述する方策間距離を生成する．方策間距離は，カテゴリ内すべての方策同士を全結合する．2)想起では，観測情報に基づいてカテゴリを選択し，そのカテゴリの方策から選択候補を求める．それぞれの方策には活性値を与えておき，ロボットがカテゴリを選択すると，カテゴリ内の全方策の活性値が更新される．3)想起で得られた候補の中から確率的に方策を選択する．4)方策に従った行動が学習に有効な場合は活性値を増加，学習を妨げる行動の場合は活性値を減少させる，活性化処理を行う．また，活性化した方策から接続関係のある方策へと活性値の拡散処理を行う．5)ロボットが行動する毎に，全方策の活性値を減衰させる．計算機シミュレーションにより，方策を用いない強化学習，単一方策のみを用いた転移学習，提案手法を用いた転移学習の学習効率を比較し，提案手法の有用性を確認した．実機への本手法の実装方法について検討しており，実機実験や獲得した方策数の学習に対する影響の検証等を行う．

研究成果
(6件)

すべて 2018 2017

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (5件)

[雑誌論文] Automatic Convergence Estimation by Utilizing Fractal Dimensional Analysis for Reinforcement Learning2017
- 著者名/発表者名
  Kono Hitoshi, Suzuki Tsuyoshi, Kamimura Akiya, Tomita Kohji, Tamura Yusuke, Yamashita Atsushi, Asama Hajime
- 雑誌名
  
  The Journal of Instrumentation, Automation and Systems
  
  巻: 3 ページ: 58～70
- DOI
  http://dx.doi.org/10.21535/jias.v3i3.934
- 査読あり
[学会発表] 強化学習における方策転移度合い決定のための転移曲面の検討2018
- 著者名/発表者名
  河野仁, 三浦昇三, 温文, 鈴木剛
- 学会等名
  第24回画像センシングシンポジウム(SSII2018)
[学会発表] 強化学習における方策再利用評価のための転移曲面の検討2017
- 著者名/発表者名
  河野仁, 三浦昇三, 温文, 鈴木剛
- 学会等名
  第18回システムインテグレーション部門講演会（SI2017）
[学会発表] 活性化拡散モデルに基づく強学習エージェントの方策選択手法2017
- 著者名/発表者名
  高桑優作, 河野仁, 温文, 神村明哉, 富田康治, 鈴木剛
- 学会等名
  第18回システムインテグレーション部門講演会（SI2017）
[学会発表] 強化学習の方策再利用時におけるステップ単位の方策忘却手法2017
- 著者名/発表者名
  河野仁, 伊藤祐希, 郡司拓朗, 神村明哉, 富田康治, 鈴木剛
- 学会等名
  日本機械学会ロボティクス・メカトロニクス講演会2017
[学会発表] 活性化拡散モデルに基づく強化学習エージェントの方策選択手法2017
- 著者名/発表者名
  高桑優作, 河野仁, 温文, 神村明哉, 富田康治, 鈴木剛
- 学会等名
  日本機械学会ロボティクス・メカトロニクス講演会2017

2017 年度 実績報告書

認知心理学におけるプライミング効果を基にした強化学習ロボットによる知識選択

研究代表者

鈴木 剛 東京電機大学, 工学部, 教授 (00349789)

研究成果

[雑誌論文] Automatic Convergence Estimation by Utilizing Fractal Dimensional Analysis for Reinforcement Learning2017

著者名/発表者名

雑誌名

DOI

[学会発表] 強化学習における方策転移度合い決定のための転移曲面の検討2018

著者名/発表者名

学会等名

[学会発表] 強化学習における方策再利用評価のための転移曲面の検討2017

著者名/発表者名

学会等名

[学会発表] 活性化拡散モデルに基づく強学習エージェントの方策選択手法2017

著者名/発表者名

学会等名

[学会発表] 強化学習の方策再利用時におけるステップ単位の方策忘却手法2017

著者名/発表者名

学会等名

[学会発表] 活性化拡散モデルに基づく強化学習エージェントの方策選択手法2017

著者名/発表者名

学会等名

2017 年度実績報告書

鈴木剛東京電機大学, 工学部, 教授 (00349789)