1.追跡・逃避ゲームをテストベッドとし、モジュール型ネットワーク自己組織化マップ(mnSOM)を用いたダイナミクス学習層により追跡逃避者間の距離の時間変化を学習し、追跡者・逃避者の最適制御を相互距離の時間変化の違いに基づいてモジュール化した強化学習層により学習するという、統合的実験を行った。 2.近傍学習を用いたダイナミクス学習層による相互距離の時間変化の学習により、モジュールの位相保存的マップの形成、および適切な内挿モジュールの生成を確認した。なお、近傍学習により強化学習が加速化すると考えていたが、個別に学習する場合と比較して有意な差は見られなかった。 3.与えられた相互距離の時間変化に最も近いモジュールが発火し、これに対応する強化学習モジュールの制御則を用いることにより、捕獲回数に関する性能が高いことを確認した。 4.環境が変化した場合に、この変化を検出し、変化した環境に適応することが重要である。占有グリッドを用いて地図形成を行う際、各グリッドでの占有確率がほぼ二項分布に従うことを用いて変化を検出し、地図を修正することが可能となる。ただシミュレーション実験による実証が完全には終わっていないので、早急に完了させ、論文および研究成果報告書として取り纏める予定である。 5.ダイナミクスを学習するMOSAICと強化学習モジュールを組み合わせた銅谷らの研究と比較して、計算が安定的であること、モジュール数を事前に厳密に決める必要が無いこと、内挿モジュールが生成されることなど種々の利点があり、研究の意義は大きいと考えている。
|