2000 Fiscal Year Annual Research Report
生体とロボットにおける運動技能と知能行動の獲得に関する研究
Project/Area Number |
10450165
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
伊藤 宏司 東京工業大学, 大学院・総合理工学研究科, 教授 (30023310)
|
Co-Investigator(Kenkyū-buntansha) |
近藤 敏之 東京工業大学, 大学院・総合理工学研究科, 助手 (60323820)
山北 昌毅 東京工業大学, 大学院・理工学研究科, 助教授 (30220247)
|
Keywords | 強化学習 / 身体ダイナミクス / 繰り返し学習 / カオス / 内部ダイナミクス |
Research Abstract |
熟練後の知能行動では、環境変動と行動発現の動的関係が内部機構として表象されている必要がある.本年度は,このような知能行動の獲得に対して、非線形ダイナミクスと強化学習の枠組みを融合した手法を考察した. まず,システムの内部力学系と環境への働きかけより得られる外部力学系とのカップリングを考え、その非線形ダイナミクスの時間発展により、システムと環境の動的関係を記述・記憶することを試みた.そして、環境の変化に対する位相空間上の相互引き込みやアトラクタの遷移によってコヒーレントなパターンを生起させた.さらに、ニューラルネットやカオスなどの非線形ダイナミクスを強化学習の枠組みに埋め込み、知能システムが自律的に内部表象を獲得する手法を提案した. 一方,強化学習は成功失敗の繰り返しによる逐次型の能動的学習機構であり、システム自らが環境の中で行動しながら、学習のためのデータを獲得する.しかしながら、現状の強化学習は、マルコフ決定過程に限られており、その非実用性や試行錯誤の爆発などの問題点があり、このままでは本研究の機能獲得に適用できない.環境の不完全知覚あるいは選択的注意(システムの主観的"見え"に対応)や能動的行動による環境の動的変化を扱うことができる非マルコフ的環境に対して、内部モデルによる状態予測と状態空間の拘束を併用する手法を発展させた.これらの結果をリーチング動作に適用し良好な結果を得た.
|
Research Products
(7 results)
-
[Publications] K.Shibata: "Fast and Stable Learning in Direct-Vision-Based Reinforcement Learning"Proc.of Int'l Sympo.on Artificial Life and Rabatics. 200-203 (2001)
-
[Publications] 若松良久: "音声韻律に基づいた人間?ロボット系におけるコミュニケーションモデル"第12回SICE自律分散システムシンポジウム資料. 367-372 (2001)
-
[Publications] 井澤淳: "強化学習を適用した人腕運動学習制御における粘弾性調節戦略"第12回SICE自律分散システムシンポジウム資料. 123-128 (2001)
-
[Publications] K.Shibata: "Autonomous Learning of Reward Distribution for Each Agent in Multi-Agent Reinforcement Learning"Proc.of The 6th. Int' Cont on Intelligent Autonomous Systems. 495-502 (2000)
-
[Publications] X.-Z.Zheng: "A Learning and Dynamic Pattern Generoting Architecture for Skillful Robotic Bosehall Batting System"Proc.of IEEE Int'l Conference on Robotics and Automation. 3227-3232 (2000)
-
[Publications] 小島一浩: "想起,学習ダイナミクスの非分離性を考慮した動的連想記憶モデル"第12回SICE自律分散システムシンポジウム資料. 143-148 (2001)
-
[Publications] 伊藤宏司: "知の創発"NTT出版. 283 (2000)