Project/Area Number |
10780232
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Nara National College of Technology |
Principal Investigator |
山口 智浩 奈良工業高等専門学校, 情報工学科, 助教授 (00240838)
|
Project Period (FY) |
1998 – 1999
|
Project Status |
Completed (Fiscal Year 1999)
|
Budget Amount *help |
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 1999: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 1998: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | 人工知能 / 強化学習 / ロボット学習 / r-確実探索法 / 変動点推定 / 割引期待報酬 / 報酬獲得効率 / 平均報酬 / メンタルシミュレーション / 人工生命 / 協調行動 / オフライン学習 / オンライン学習 |
Research Abstract |
ロボットの動作速度よりも速く学習や試行錯誤を行なうにはどうすれば可能か?実ロボット学習の最大の問題点は,学習時間の長さである.しかも従来手法では、タスクが複雑になるにつれ学習コストが大きく増加する問題が生じる.そこで本年度は、複数ロボットの協調行動学習のシミュレーションシステムを構築した上で、基本となる強化学習手法の効率化および状況変化に対する収束精度の改善手法を提案し、実験的にその効果を評価した。 1.r-確実探索法による、変動にすばやく適応する環境同定手法の実現 複数の学習ロボットのいる環境では、ロボットが自身のいる環境の状況や変化を正確に把握することは、学習精度を保つ上で重要な役割を持つ。しかしながら、従来の強化学習手法は、緩やかな変動には適応できても、他の学習ロボットの政策変更などによって生じる状況の断続的な変動への対応が困難だった。そこで本手法は逐次的な観測データから環境の変動点を推定し、同定モデルを変動点の前後で分割することにより、変動に対し、同定精度を悪化させない手法を提案し、実験を行なった。 2.報酬獲得効率:RAEに基づく最適政策の高速な強化学習手法 従来の最適政策の強化学習法の基本原理は、割引期待報酬和の最大化であった。しかしながら、従来手法は計算コストが大きく、しかも、割引期待報酬手法では目先の利益を優先し、遠くの利益を過小評価するという問題点があった。そこで本手法では、強化学習法の本来の学習目的である報酬獲得効率を直接算出し、これを最大化する政策を効率良く求める新しいアルゴリズムを提案し、計算量の減少を既存手法と実験的に比較、評価した。 3.学習の副目標を自律的に設定する強化学習法の実験 与えられた学習目標である報酬を手がかりに,報酬を獲得する中間地点に副目標である副報酬を設定することで,強化学習を効率化,高速化する新しい手法を実験した.
|