研究概要 |
学習・適応戦略を持つ生産システムエージェントを,(1)理論的な面からとして学習エージェントの報酬の性質,(2)生産システムのシミュレーション実験からの自律運転,の二つの観点に基づいて研究を実施した. 理論的な面では,昨年度におこなった学習エージェントのモデルを発展させ,かつ複数のエージェントが学習を行なう時のシステムの報酬の関係を導きだした.すなわち,学習エージェントAjは自身の評価c(Aj)をシステムからの報酬KjΔC(Aj)によって増加させるように行動を決定することを導きだし,この定式化から確率的学習オートマトン及びQ学習との関係を得た.ここで,ΔC(Aj)はシステムのエージェントAjに関する増分である.この研究成果は精密工学会誌において公表を行なった.また,各エージェントの報酬をテーラー展開し,連立方程式を作成すると報酬間の関係が連立方程式の一般解から導きだされることを明らかにし,この結果,報酬間にノード,ループ,サイクルの関係が生じ,定性的にここからエージェント間の競合・協調が生じることを示した.この研究成果はCIRA(知識とロボットに関する国際学会:於神戸)で公表予定である. シミュレーションでは,物流システムのピッキングカートにQ学習による学習・適応戦略をインプリメントしたものを想定し,セル型工場におけるピッキングカートの自律搬送シミュレーションを実施した.このピッキングカートには衝突センサーの換わりにブルーツースを想定し,ピッキングカートとそれに最近接の機械間で交信を行なわせ,ピッキングカート周辺の状況を得られるように想定した.実際にシミュレーションを行なった数値計算実験では,従来行なっていたQ学習によるAGVの自律搬送実験と同じ効果が得られることが分かった.この研究成果は2003年度精密工学会北海道支部講演会において公表した.
|