本研究では、多数の自律的なロボット(以下、群ロボットと呼ぶ)が存在する系において、各ロボットが他のロボットと競合を起こさない適切な行動戦略を自律分散的に学習する手法を提案した。具体的には、強化学習的な戦略形成アルゴリズムを提案し、系全体としてのロボットの戦略の振舞いを解析した。経路選択問題と作業計画問題に適用し、動的に変動する環境下において、シミュレーション実験により、提案した手法が有効に機能するかを検証した。2次元平面環境における2地点間の多数物体の搬送計画問題を扱った。以下の手順で問題の解決を行なった。(1)適切な搬送経路の自律的生成:環境に応じて搬送におけるサブゴールを生成し、サブゴールとその間を結ぶ線分として搬送経路を定義した。A^*アルゴリズムの適用により最短経路の形成が実現できた。(2)最適搬送形態の選択:各ロボットが局所的な情報のみを用いて、搬送性能を最適化する搬送形態を獲得する学習則を構築した。最適化するためには、個別ロボットになんらかの学習機構が必要であるが、ここでは、「個々のロボットの軌道生成層」、「ロボット群としての戦略形成層」(ここまでが、「移動経路の決定階層」に相当)、「最適戦略探索層」(これが「経路上での戦略形成階層」に対応)の3つの層を下から階層的に組合わせ、強化学習的な学習機構を適用した。シミュレーション実験により経路の自律生成、最適搬送形態の学習の実現(移動受渡しコストの比率及び障害物配置に依存した、リレー型、ループ型への収束)が確認された。
|