Cognitive Economy in Reusing Policy Selection for Reinforcement Learning Robots Based on Prototype Theory
Project/Area Number |
19K12173
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
藤井 浩光 千葉工業大学, 先進工学部, 准教授 (30781215)
温 文 東京大学, 大学院工学系研究科(工学部), 特任准教授 (50646601)
河野 仁 東京工芸大学, 工学部, 准教授 (70758367)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2019: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 転移学習 / 認知心理学モデル / プロトタイプ理論 / 機械学習 / 強化学習 / マルチエージェントロボットシステム / マルチエージェント強化学習 / マルチロボット強化学習 / 認知的経済性 |
Outline of Research at the Start |
本研究課題では,転移学習を用いた強化学習ロボットにおける認知的経済性の実現を目指し,既獲得の複数の学習知識を選択的に再利用する際,保存されている全ての知識を検索して選択するのではなく,視覚等のセンサ入力情報から,再利用する「知識群」の候補をあらかじめ選択し,さらにその知識群にある複数の方策を結合して同時に利用する手法を確立する.特に,認知言語学や心理学で議論されてきたヒトにおけるプロトタイプ理論を用いて知識群をカテゴリ化し,選択すべき部分知識群(カテゴリ)を選択する手法を,強化学習ロボ ットで実現する.
|
Outline of Final Research Achievements |
In order to realize cognitive economy of reinforcement learning robot using transfer learning, we studied categorization of reusing learning policies, extraction of prototypes in category, and speed-up of reusing policy selection. For shortest path search problem, we performed networking of reusing policies based on spreading activation model, categorization of policies using K-means++ based on prototype theory, and extraction of prototypes by averaging policies within a category, and confirmed the reduction of learning time through computer experiments. We also performed parallel computation using computer clusters for speed-up of computation during policy selection, and verified the effectiveness by implementing the method on an autonomous mobile robot. For object shape categorization and prototype extraction, primitive shape recognition was performed by learning, and shape-appropriate object manipulation was executed.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の最終的な目標は,「直観」や「直感」といったヒトの無意識的な判断機構をモデル化し,学習ロボットに実装することである.これにより,知能ロボットの新たなタスクへの導入時に,環境の拘束条件の緩和,タスク適応的な行動の迅速な獲得,咄嗟の環境条件変化への対応などが期待できる.本研究課題では,その基礎検討として,認知心理学の知見である活性化拡散モデルおよびプロトタイプ理論の導入による強化学習ロボットの効率的かつ高速な知識のカテゴリ化と選択(認知的経済性)の方法について提案し,実験により検証した.本研究課題の成果は,学習ロボットや学習エージェントの実用化・普及への貢献が期待できる.
|
Report
(4 results)
Research Products
(6 results)