2021 Fiscal Year Annual Research Report

プロトタイプ理論に基づく強化学習ロボットの知識選択における認知的経済性の向上

Research Project

Project/Area Number	19K12173
Research Institution	Tokyo Denki University
Principal Investigator	鈴木剛東京電機大学, 工学部, 教授 (00349789)
Co-Investigator(Kenkyū-buntansha)	藤井浩光千葉工業大学, 先進工学部, 准教授 (30781215) 温文東京大学, 大学院工学系研究科(工学部), 特任准教授 (50646601) 河野仁東京工芸大学, 工学部, 准教授 (70758367)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	転移学習 / 認知心理学モデル / プロトタイプ理論 / 機械学習 / 強化学習 / マルチエージェントロボットシステム / マルチエージェント強化学習
Outline of Annual Research Achievements	本研究は、「直感」や「勘」のような人間が無意識的に行う認知メカニズムをシステム化し、ロボットに実装することを目標とした。その要素技術として、環境に対して強化学習（以下、学習とする）するロボットが適応的に振る舞うために、事前に様々な環境で学習して獲得した複数の方策から、転移学習にて動作に適した方策を選択して再利用する際に、保存した全方策を検索するのではなく、有用な「方策群」の候補を選択する手法を確立する。そのために本研究課題では、1)プロトタイプ理論に基づき，方策群をカテゴリに分割する方法論の構築（認知心理学の知見の応用）、2)センサ入力情報等から特徴量とプロトタイプを抽出し、カテゴリを学習する手法の開発（工学と認知心理学の融合）、3)活性化拡散モデルに基づきカテゴリから方策群を選択し、複数方策を結合して再利用する手法と強化学習手法の統合（工学的システム開発）、を行う。 2021年度は本研究課題のまとめとして、主として、これまでの検討モデルから、ヒトのプロトタイプ理論に基づく記憶の分類を、k-means++およびシルエット係数を用いて複数方策に自動分類し、さらに分類された方策群の中から動作に適した方策群を選択して、その方策群より活性化拡散モデルに基づき一つの方策を選択する手法を開発した。提案手法を最短経路シミュレーションに適用し、従来より効率良く動作に適した方策が選択可能であることを検証した。また効率的な方策選択のアプローチの一つとして、画像学習に基づく活性化拡散モデルを用いた転移学習における、シーケンシャルな計算による計算時間の増加に対して、並列計算を適用したアルゴリズムを開発し、計算時間の低減（認知的経済性の向上）を図った。シミュレーションベースの学習により方策を学習し、その方策を用いた自律運転シニアカーの経路計画問題に適用して実機実証実験を行い、手法の有用性を検証した。