Budget Amount *help |
¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 1994: ¥2,000,000 (Direct Cost: ¥2,000,000)
|
Research Abstract |
ロボティクスや人口知能研究の究極の目的は,変動する環境との相互作用を通して,自ら作業計画を立て,遂行する自律的なエージェントを実現させることである.これまでの典型的な知能ロボットでは,処理の階層化による段階的処理で構成されており,このような直列的な処理系では,外界の変動に対して非常に弱いシステムであることが指摘され,行動規範型のロボットが出現しつつある.これらの行動規範型のロボットは環境変動に対応し,反射的な行動を上手にこなすが,目的行動そのものを獲得し生成する能力に欠けている.本研究では,強化学習を用いて,ロボット自らが,環境との相互作用を通して,目的行動を獲得し生成する能力を実現することを目的として,実際のロボットシステム(サッカーのシューティングロボット)を構築し,強化学習による目的行動獲得能力の解析ならびに評価を行なった. 強化学習を実際のロボットシステムに適用する際の問題点として,「学習の高速化」及び「状態空間と行動空間のずれ」が挙げられる.前者に対しては,簡単なタスクからの学習LEM(Learning Easy Missions)を提案し,状態空間の大きさの指数オーダーから線形オーダーに学習時間が低減できることを示した.また,後者に対しては,行動空間を状態空間に合わせて再構成することにより解決した.以上をサッカーロボットが,ボールを発見し,ドリブルして,ゴールにシュートする複雑で動的なタスクに適用した.まず,コンピュータシミュレーションにより,学習の高速化を検証した.また,移動ロボットにカラーTVカメラを搭載した実機を使った実験で学習結果を検証した.ビデオノイズによる多少の画像処理の失敗に拘らず、シュートすることができ,本手法の有効性・ロバスト性を確認できた.
|