Research Abstract |
本計画研究'創発的適応・学習に関する理論とその応用'は,それぞれ機械系における適応・強化学習の理論(三上,古川),知能系における創発的学習(石田,畝見),および生態系における創発的学習(嘉数,小野)の3グループに分けて,主課題へのアプローチを行ってきた.グループ全体としては7月,8月,11月,および1月の合計4回の研究集会を行い,各研究者の研究の進展状況の報告,および主題に対する討論を行ってきた. また,各々のグループは,ネットワークなどをも活用して活発な議論をおこなってきた.さらに,本重点研究の背景に存在する新しい研究パラダイムである'創発'とは何か,に関する討論も行った.そのなかから本計画研究グループとしては,工学的立場から,創発をとらえ,従来の工学設計の概念,および手法では実現不可能である,種々の工学設計,特に環境変動を前提とした,各種計画問題を,いわゆる創発的設計として新しく理論開発していくべきであるとの認識が得られた.研究成果の公表は各種国内学会での研究成果の公表および,国際学会IROS'96へのグループとしての参加を行ってきた.以下に簡単に各グループで得られた成果を記す. 古川は生産システム分野を研究対象として,特にFMSにおける無人化搬送車を含む自動倉庫システムにおける計画問題を自律分散マルチエージェントシステムとして定式化し,これに強化学習Q-Learningを導入することでより自律適,知的に計画問題が解けることを示した. 三上は,古川と同様な環境における多くの自律ロボット群において自然に発生する問題,すなわち競合問題の解決を如何に図るか,さらにこれを進めてロボット間の協調動作の自然適発生の実現を意識して新しい強化学習の理論を提案し,計算機実験を通してこれを実証している.提案手法は期待適応度分配則を特殊フィルターとして強化学習に導入しロボット間の整合性のある通信を実現し結果として問題解決が図られている. 石田はロボットが自律的にその内部空間モデルを如何に構築していくかを,外部世界に埋め込まれた情報を基に行動するロボットにより積極的に収集された.センシングパターン,行動パターン,そして行動結果の評価データを統計的に分析評価し,それらのなかからいわゆる不変項ともなるべき内部モデルを構築していく. 畝見は,Rote Learningと呼ばれる新しい強化学習理論を提案している.これは一種のエピソードベースアプローチ出あり,また非シンボリックアプローチであり,Q-Learningとはことなる挙動を示すことが議論される. 嘉数は,サッカーゲームを例としてそこでは状況に応じて個々の選手(エージェント)が有機的に通信し組織的機能を発生させている.これを通信手段としてはフェロモンを,機能創成には自己組織化機能を持たせた強化学習を導入している。 小野は,餌エージェントと補食者エージェント群からなるメッシュワールドにおいて,餌をとる行動を通して補食者エージェント間に機能分担作用が生じることを追及している.導入した学習則はQ-Learningに基づく強化学習であり,シミュレーションから,補食者エージェントが役割分担を行っている様相がわかる.
|