• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

A policy selection method based on the priming effect in the cognitive psychology for reinforcement learning agent

Research Project

Project/Area Number 16K12493
Research InstitutionTokyo Denki University

Principal Investigator

鈴木 剛  東京電機大学, 工学部, 教授 (00349789)

Co-Investigator(Kenkyū-buntansha) 温 文  東京大学, 大学院工学系研究科(工学部), 特別研究員 (50646601)
河野 仁  東京工芸大学, 工学部, 助教 (70758367)
Project Period (FY) 2016-04-01 – 2018-03-31
Keywords知識選択 / 活性化拡散モデル / 転移学習 / 強化学習
Outline of Annual Research Achievements

未知環境や動的環境にてロボットを適応的に行動させるために,ロボットが自律的に行動を学習する強化学習や転移学習の研究が行われている.本研究では,転移学習において複数方策から有用な知識を選択することを目的に,人間の記憶や知識の思い出しや再認識を行うメカニズムである活性化拡散モデルを基に,方策の関連性に基づいたカテゴリを用いて活性化拡散モデルを再現した転移学習手法を提案した.
本手法では,1)複数方策をカテゴリに分類してネットワークを構築,2)カテゴリからの方策の想起,3)方策の選択,4)活性値の拡散(活性化拡散),5)活性値の減衰,という処理をロボットの行動毎に反復実行し,方策の活性値を調整しながら,転移する有用な方策を選択する.具体的には,1)関連性のある方策を分類したカテゴリを基に方策ネットワークを構築する.また,カテゴリ内で,方策間の関連性を記述する方策間距離を生成する.方策間距離は,カテゴリ内すべての方策同士を全結合する.2)想起では,観測情報に基づいてカテゴリを選択し,そのカテゴリの方策から選択候補を求める.それぞれの方策には活性値を与えておき,ロボットがカテゴリを選択すると,カテゴリ内の全方策の活性値が更新される.3)想起で得られた候補の中から確率的に方策を選択する.4)方策に従った行動が学習に有効な場合は活性値を増加,学習を妨げる行動の場合は活性値を減少させる,活性化処理を行う.また,活性化した方策から接続関係のある方策へと活性値の拡散処理を行う.5)ロボットが行動する毎に,全方策の活性値を減衰させる.
計算機シミュレーションにより,方策を用いない強化学習,単一方策のみを用いた転移学習,提案手法を用いた転移学習の学習効率を比較し,提案手法の有用性を確認した.実機への本手法の実装方法について検討しており,実機実験や獲得した方策数の学習に対する影響の検証等を行う.

  • Research Products

    (6 results)

All 2018 2017

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (5 results)

  • [Journal Article] Automatic Convergence Estimation by Utilizing Fractal Dimensional Analysis for Reinforcement Learning2017

    • Author(s)
      Kono Hitoshi, Suzuki Tsuyoshi, Kamimura Akiya, Tomita Kohji, Tamura Yusuke, Yamashita Atsushi, Asama Hajime
    • Journal Title

      The Journal of Instrumentation, Automation and Systems

      Volume: 3 Pages: 58~70

    • DOI

      http://dx.doi.org/10.21535/jias.v3i3.934

    • Peer Reviewed
  • [Presentation] 強化学習における方策転移度合い決定のための転移曲面の検討2018

    • Author(s)
      河野仁, 三浦昇三, 温文, 鈴木剛
    • Organizer
      第24回画像センシングシンポジウム(SSII2018)
  • [Presentation] 強化学習における方策再利用評価のための転移曲面の検討2017

    • Author(s)
      河野仁, 三浦昇三, 温文, 鈴木剛
    • Organizer
      第18回システムインテグレーション部門講演会(SI2017)
  • [Presentation] 活性化拡散モデルに基づく強学習エージェントの方策選択手法2017

    • Author(s)
      高桑優作, 河野仁, 温文, 神村明哉, 富田康治, 鈴木剛
    • Organizer
      第18回システムインテグレーション部門講演会(SI2017)
  • [Presentation] 強化学習の方策再利用時におけるステップ単位の方策忘却手法2017

    • Author(s)
      河野仁, 伊藤祐希, 郡司拓朗, 神村明哉, 富田康治, 鈴木剛
    • Organizer
      日本機械学会ロボティクス・メカトロニクス講演会2017
  • [Presentation] 活性化拡散モデルに基づく強化学習エージェントの方策選択手法2017

    • Author(s)
      高桑優作, 河野仁, 温文, 神村明哉, 富田康治, 鈴木剛
    • Organizer
      日本機械学会ロボティクス・メカトロニクス講演会2017

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi