2001 年度実績報告書

工学的ネットワークにおける対称性崩壊による複雑性の発生に関する基礎研究

研究課題

研究課題/領域番号	13650251
研究機関	神戸大学
研究代表者	MUREITHI N.W 神戸大学, 工学部, 助教授 (60294196)
キーワード	学習ロボット / Markov Decision Process MDP / 対称性 / 励振系ネットワーク / ロボットのタスク / 対称的MDP / Transition function / 励振系ネットワーク
研究概要	2・3励振系ネットワークの研究に対して、対称性D3XSの幾つかの鍵となる部分群は、空間的群Z2(κ)、時間的群Z2(π)、空間的/時間的群Z2(κ,R)、Z2(κ,R^*R),Z2(κ,R,π)となる。πは半周期位相移動、Rは2π/3回転を示す。上記の結果の応用として、共同作業する2台の学習ロボットの問題を考えた。2台のロボットは、長い棒(スラブ)を押すというタスクに対して共同で作業する。1台のロボットは一度にゆっくりと棒の一端を押す事でジョブを行う事が出来る。ロボットは短い時間・少ないステップで安定して棒を押す事に対して報酬が与えられ、他の棒を押す方法には更に時間を要する。要する時間T、押した回数P、安定度Sは一組の(T, P, S)によって定義される。そして、2台のロボットは幾つかの方法で共同作業する事が出来、典型的な解は、(a)両ロボットが同時に一端を押す(1,20,0.5)、(b)両ロボットが(少ない施行だが安定度が悪い)中央で押す(1,10,0)、(c)両ロボットは各々各端で(安定し、最も良い解である)押す(1,10,1)、(d)ロボットが(一端を)交互に押す(2,20,0.5)、である。ロボットの学習アルゴリズムには、標準的なMDPと、対称的MDPの2つのMDPを考えた。MDPは状態(State)、行動(Action)、遷移関数(Transition function)、報酬(Reward)から成る順序付けされた一組の(S, A, T, R)により定義される。対称性は以下のように定義される。(S1)ロボットは全て同様である為、行動aを行う状態sのロボットR1は、行動aを行う状態sのロボットR2と同じである。よって、上記の対称性はSとAにおいて'等価な'関係によって定義される。第1段階として、ロボット間の対称性(S1)のみを考えた。対称性S1は一度ロボットが状態・行動の組(s, a)を経験すると、次のロボットはこの結果を基に学習できる。タスクの時間成分(ステップ)を考えると、問題に対する完全な対称性はZ2XStとなる。4つの解は、部分群(a)Z2(κ,π/2)、(b)&(c)Z2(κ)、(d)Z2(κ,π)と同様に表される。(b)と(c)は同様の対称性を持つが、安定性が異なる。これらの内在する対称性を利用する事により、ロボットは対称的MDPによってより早く学習する事が出来る。

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] Mureithi N.: "Multi-Agent Exploration and Cooperation Exploiting MDP Symmetry"Motion and Vibration Control, MOVIC 2002. (発表予定). (2002)
[文献書誌] Mureithi N.: "Symmetry Breaking Bifurcations in 2 and 3-Oscillator Networks"Nonlinear Dynamics. (準備中). (2002)