研究概要 |
熟練後の知能行動では、環境変動と行動発現の動的関係が内部機構として表象されている必要がある.本年度は,このような知能行動の獲得に対して、非線形ダイナミクスと強化学習の枠組みを融合した手法を考察した. まず,システムの内部力学系と環境への働きかけより得られる外部力学系とのカップリングを考え、その非線形ダイナミクスの時間発展により、システムと環境の動的関係を記述・記憶することを試みた.そして、環境の変化に対する位相空間上の相互引き込みやアトラクタの遷移によってコヒーレントなパターンを生起させた.さらに、ニューラルネットやカオスなどの非線形ダイナミクスを強化学習の枠組みに埋め込み、知能システムが自律的に内部表象を獲得する手法を提案した. 一方,強化学習は成功失敗の繰り返しによる逐次型の能動的学習機構であり、システム自らが環境の中で行動しながら、学習のためのデータを獲得する.しかしながら、現状の強化学習は、マルコフ決定過程に限られており、その非実用性や試行錯誤の爆発などの問題点があり、このままでは本研究の機能獲得に適用できない.環境の不完全知覚あるいは選択的注意(システムの主観的"見え"に対応)や能動的行動による環境の動的変化を扱うことができる非マルコフ的環境に対して、内部モデルによる状態予測と状態空間の拘束を併用する手法を発展させた.これらの結果をリーチング動作に適用し良好な結果を得た.
|