研究概要 |
自律型ロボットの学習による行動獲得は,先見的な知識だけでは補いきれない行動決定の問題に対して有効な手法である.従来,センサ空間を離散化し,有限個の状態上での行動決定問題として定式化され,Q-学習など興味深い学習法が提案されてきた.しかし,離散化に伴う誤差が無視できない状況も多く,そのため誤差の影響を少なくする高精度の方法が研究対象になってきた. 本研究では,Q-学習を拡張した拡張Q-学習を提案する.拡張Q-学習とは,行動確率場モデルに基づき,センサ空間から行動空間への写像を導くものである.本モデルでは写像を表す行動選択確率を規定する行動価値関数は,有限個の基底関数の重み付き和ととして表される.学習は重みを調整する作業に対し,また,精度を保持しつつより簡素なモデルで関数近似を行うために基底関数の自律統合を学習アルゴリズムに追加した. 提案した拡張Q-学習を自律移動型ロボットの行動獲得に応用した。具体的には、サッカーの競技を自律移動型ロボットに行わせようとするロボカップの競技に出場するロボットに焦点を当てた。その中で、ゴールキーパーの行動獲得を拡張Q-学習を活用して行なった。その結果、拡張Q-学習の特徴である自律統合のメカニズムがうまく機能して、獲得した行動を簡潔な形で表現することが可能になった。併せて、学習に費される学習時間も大幅に削減できた。更に、環境の動的な変化、例えば、ロボットの脚回りの動特性が変わった、カメラレンズにヒビが入ったなどの変化、に対しても、柔軟に且つ弾力的に対応できる可能性を示すことができた。提案手法は、1999年のストックホルムで開催されたRobCup'99にKireというチーム名で参戦したキーパーの行動獲得のところに実践応用された。
|