2016 Fiscal Year Research-status Report
認知心理学におけるプライミング効果を基にした強化学習ロボットによる知識選択
Project/Area Number |
16K12493
|
Research Institution | Tokyo Denki University |
Principal Investigator |
鈴木 剛 東京電機大学, 工学部, 教授 (00349789)
|
Co-Investigator(Kenkyū-buntansha) |
温 文 東京大学, 大学院工学系研究科(工学部), 客員研究員 (50646601)
河野 仁 東京工芸大学, 工学部, 助教 (70758367)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | マルチロボット転移学習 / 強化学習 / 知識選択 / 活性化拡散モデル / 認知心理学 |
Outline of Annual Research Achievements |
本研究では,マルチエージェントロボットシステムを対象に,エージェントが様々な環境で学習により獲得・保存した複数の知識を,転移学習により相互に再利用する際の知識選択手法の確立を目的としている.人間は,学習などで得た知識の選択により判断や行動を行っていることが認知心理学的な知見として得られていることから,その知見の一つである活性化拡散モデルを参考に,学習知識間の関係性の記述,および,知識選択の手法を提案し,計算機シミュレーションにより検証した. 提案手法では,保存された知識間の関係を,距離(関連性の高い知識ほど小さい値を持つ)で定義した有向グラフとして結合し,知識ネットワークを構築する.知識を利用するエージェントは,自身の観測情報と知識ネットワークより,各知識間距離の持つ想起確率を参照して,結合している知識を確率的に選択(知識の想起)し,実行する.知識の想起が適切であれば知識間距離を小さく,適切でなければ知識間距離を大きくするといった,知識の活性化処理を行う.これらの処理を行動選択毎に行い,随時知識ネットワークを更新しながら,転移学習により知識を再利用する. 提案手法に基づき,グリッドワールドで定義した迷路環境と,迷路の解に有効/無効な知識が混在した知識ネットワークを用い,提案手法の有用性を計算機シミュレーションにより検証した.シミュレーション結果より,エージェントの知識の再利用時に知識ネットワーク構造が変化し,知識が適切に想起されることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
学習で得られた複数の知識から,転移学習により適切な知識を選択するための手法として,活性化拡散モデルの考え方に基づき知識ネットワークの構築を行った.本モデルは,学習により獲得した複数の知識を有向グラフで表し,各知識間の関係を知識間距離で評価する.関連性の高い知識の知識間距離を小さくすることで選択(想起)される確率が大きくなる. 提案手法に基づき,転移学習時の知識の想起が適切に行えるかを確認するために,経路探索をタスクとしたシミュレータを作成した.本シミュレータは,グリッドワールド上に障害物を配置して迷路環境を作り,移動や環境情報検知範囲等を設定した強化学習および転移学習を行うエージェントを動かす.シミュレーション実験では,提案手法に基づく転移学習による経路探索と強化学習時の経路探索で比較を行った.エージェントは,前後左右への移動に停止を加えた5つの行動を設定し,エージェントが選択可能な知識は,異なる学習環境で学習した効率的に経路を探索できる知識と,非効率的な経路を選択する知識の合計6個の知識を用意した.エージェントは,移動ごとに環境情報を更新し,情報に基づき知識を想起し,学習を進める.想起に伴う活性化により使用した知識間距離の大きさと想起確率を調整する. シミュレーションの結果から,知識の想起が適切に行われ,知識の再利用により最短経路が効率的に求められたことを確認した.また,学習の進行に伴い知識ネットワークが更新され,関連性の高い知識が選択されやすくなったことを確認した.さらに,強化学習のみの経路探索結果と比較し,提案手法を用いることにより効率的な学習を行えることが確認できた. 当初,知識の一部のみを利用して知識の記述や保存,および,知識ネットワークの構築を行ったところ,想定された結果とならなかったことから,知識の記述方法が想起に影響すると考えられるため,検討が必要である.
|
Strategy for Future Research Activity |
複数台の実機学習ロボットのハードウエア製作を進め,これまでシミュレーションで検証してきた活性化拡散モデルを用いた知識選択手法を実装する.ロボットハードウエアは,試作済みの小型全方向移動ロボットをベースに改良する. これまでシミュレーションではグリッドワールド上で位置情報に基づくの学習を行っていたが,これをベースとして,実世界で実行可能な知識ネットワークと知識の活性化のモデルを構築し,実装する. また,実ロボットに提案手法を実装し,検証実験を行う.
|
Causes of Carryover |
次年度使用額は,実機移動ロボットハードウエア製作に関わる費用が主である.今年度,実機の移動ロボットハードウエアを製作する予定であったが,当初検討していた提案手法での経路探索と,強化学習のみの経路探索との比較検証結果において,提案手法の性能を発揮できない結果が若干得られることがあり,活性化拡散モデルを実装するための知識の記述方法および知識ネットワークの構築方法の一部を改良した.これによりシミュレーション開発および検証実験に時間を要したため,ロボットハードウエア開発を次年度に行うこととした.
|
Expenditure Plan for Carryover Budget |
次年度7月までにロボットハードウエア要素として電気・電子部品,センサ類,機械部品,加工等の発注を行い,順次製作を進めて9月までに2台のロボットを構築する.ロボットハードウエアの基本設計は,現在試作済みの全方向移動ロボットをベースとする.製作と並行して提案手法の実機実装について検討を進め10月までに実装し,検証実験を行う.
|