2017 Fiscal Year Annual Research Report
A policy selection method based on the priming effect in the cognitive psychology for reinforcement learning agent
Project/Area Number |
16K12493
|
Research Institution | Tokyo Denki University |
Principal Investigator |
鈴木 剛 東京電機大学, 工学部, 教授 (00349789)
|
Co-Investigator(Kenkyū-buntansha) |
温 文 東京大学, 大学院工学系研究科(工学部), 特別研究員 (50646601)
河野 仁 東京工芸大学, 工学部, 助教 (70758367)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 知識選択 / 活性化拡散モデル / 転移学習 / 強化学習 |
Outline of Annual Research Achievements |
未知環境や動的環境にてロボットを適応的に行動させるために,ロボットが自律的に行動を学習する強化学習や転移学習の研究が行われている.本研究では,転移学習において複数方策から有用な知識を選択することを目的に,人間の記憶や知識の思い出しや再認識を行うメカニズムである活性化拡散モデルを基に,方策の関連性に基づいたカテゴリを用いて活性化拡散モデルを再現した転移学習手法を提案した. 本手法では,1)複数方策をカテゴリに分類してネットワークを構築,2)カテゴリからの方策の想起,3)方策の選択,4)活性値の拡散(活性化拡散),5)活性値の減衰,という処理をロボットの行動毎に反復実行し,方策の活性値を調整しながら,転移する有用な方策を選択する.具体的には,1)関連性のある方策を分類したカテゴリを基に方策ネットワークを構築する.また,カテゴリ内で,方策間の関連性を記述する方策間距離を生成する.方策間距離は,カテゴリ内すべての方策同士を全結合する.2)想起では,観測情報に基づいてカテゴリを選択し,そのカテゴリの方策から選択候補を求める.それぞれの方策には活性値を与えておき,ロボットがカテゴリを選択すると,カテゴリ内の全方策の活性値が更新される.3)想起で得られた候補の中から確率的に方策を選択する.4)方策に従った行動が学習に有効な場合は活性値を増加,学習を妨げる行動の場合は活性値を減少させる,活性化処理を行う.また,活性化した方策から接続関係のある方策へと活性値の拡散処理を行う.5)ロボットが行動する毎に,全方策の活性値を減衰させる. 計算機シミュレーションにより,方策を用いない強化学習,単一方策のみを用いた転移学習,提案手法を用いた転移学習の学習効率を比較し,提案手法の有用性を確認した.実機への本手法の実装方法について検討しており,実機実験や獲得した方策数の学習に対する影響の検証等を行う.
|