ベイズ学習と変化点検出法を用いた侵入傾向変化に対するロボットの即応学習 当該年度では,まず,時系列データにおける値の急激な変化をリアルタイムに検出するChangeFinderによって,傾向の変化点検出を試みた.また,緩やかな変化に対しては,学習過程におけるJensen-Shannon情報量(統計データと近傍データの確率分布の差異)から変化点検出を試みた.その結果,変化の度合いに応じた統計データの忘却を行うことで,侵入傾向を即応的に学習することに成功した.
動的計画法を用いた最適警備行動の生成 ロボットが警備を行う環境はセルに分割される.そして,各セルには,ロボットが学習により特定した侵入傾向が確率として与えられている.この侵入傾向に対して,本研究では動的計画法における価値反復を実行した.これにより,環境全体(全セル)に対するロボットの状態価値関数として最適化する.さらに,グリーディーアルゴリズムを適用することで,クックアップテーブルと呼ばれる最適行動方策を求めた.ルックアップテーブルには,ロボットが向かうべき方向に矢印が,目的地には◎が記されている.ロボットは,各状態(セル)における印にしたがい動くことで,目的地へと向かって警備を行うことが可能となった.その結果,警備目的地,時間,経路といった一連の最適な警備行動を獲得することに成功した.以上の研究成果から,ロボットは,従来のような画一的に環境を警備するのではなく,傾向があればそれに基づき,より多くの侵入者を見つけるよう動くことが可能となった.また,傾向が変化したとしても,それを即座に検出することで,動的な環境における警備実現の可能性が見出せた.
|