本年度に得た主な成果はつぎの通りである。 (1)本研究で提案している分散学習オートマトンとWatkinsによるQ-Learningとを数値実験により種々比較検討した。また、提案の分散学習オートマトンの収束性について検討した。ただし、その一部の性質は解明できたが、なお完全な証明には到っていない。 (2)様々な発見的手法を導入して、本分散学習オートマトンの収束速度を改善し、それを、下記の移動ロボットの学習による行動獲得に組み込んだ。また、先に提案したホロン・ネットワークは、学習に多大な時間を要すること、および扱える信号が0または1の2値に限定されるなどの問題があったため、学習時間を短縮するために新たな進化アルゴリズムを提案し、連続値信号も扱えるよう拡張した。この成果をまとめ、学術誌に発表した。 (3)未知環境で動作する移動ロボットの自律的行動の生成問題についてシミュレーションによる実験的検討を行った。すなわち、その上部にフォトセンサを想定した移動ロボットに対し、光源に向かう行動の獲得を分散学習によって行う方法を提案し、その有効性をシミュレーション実験によって検証した。その成果を研究会等で発表した。なお、シミュレーションは、先に開発した移動ロボット開発支援システムの機能の一部を用いて行った。 (4)移動ロボットの実機による学習実験を進めた。 (5)おわりに:本研究の目的であるマルコフ環境下での分散学習については、ほぼ所期の成果を得た。しかし、移動ロボットの学習による行動獲得の研究と通して、マルコフ・モデルによるアプローチの限界が明らかになった。非マルコフ的な環境での学習問題の分散学習機構の開発が本研究の次のステージとして重要と考える。
|