2015 Fiscal Year Research-status Report
強化学習個体群における行動時系列を基にしたコミュニケーション創発メカニズムの解明
Project/Area Number |
25871049
|
Research Institution | Okinawa National College of Technology |
Principal Investigator |
佐藤 尚 沖縄工業高等専門学校, メディア情報工学科, 准教授 (70426576)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 衝突回避ゲーム / 原始的コミュニケーションの創発 / Neural-Q学習 / Recurrent-Q学習 / 基礎的行動の記号化 / 強化学習 / マルチエージェント・システム / ジェスチャー |
Outline of Annual Research Achievements |
本研究では、原始的コミュニケーションがジェスチャーで行われていたという言語の起源に関する仮説に基づき、コミュニケーションとは関係ない目的を持った「動作」がどのようにコミュニケーションを成立させる「記号」として用いられるようになるのか、また、それはどのような能力を持つ個体間において、どのような条件が必要であるのかを明らかにすることを目的とする。 平成26年度の研究では、通常のQ学習とNeural-Q学習の比較実験を行った。その結果、衝突回避能力はQ学習に劣るものの、ゴール到達能力はNeural-Q学習の方が高いことが分かった。更に、一時刻前よりも古い過去からの時系列情報を参照することによって性能低下することが分かった。この性能低下の原因としては、Neural-Q学習に利用した階層型ニューラルネットが時系列データの時間的構造を適切に学習できないことが挙げられる。よって、階層型ではなく再帰型ならばこの問題を解決可能だと考えられる。 そこで平成27年度の研究では、時系列データを学習可能な再帰型ニューラルネットで構成するRecurrent-Q学習を採用し、Neural-Q学習との比較実験を行った。その結果、Neural-Q学習よりもゴール到達能力は若干低下したものの、逆に衝突回避能力は向上することが分かった。更に、Recurrent-Q学習を採用した2個体間において、視線を動かすという「動作」をコミュニケーションのための「記号」として利用することで衝突を回避するという協調行動の創発も確認した。また興味深い結果として、近づいてきた他個体が自分の近くを通過するのを待つため、同じ場所で旋回するという行動を獲得する個体も確認した。 これらの結果から、ジェスチャーによるコミュニケーション創発現象の解析には連続量の時系列データを扱えるRecurrent-Q学習モデルが適していると結論する。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
当初の予定では、平成25年度に「過去情報参照可能Q学習」を採用したエージェント群による衝突回避ゲームを用いたコミュニケーション創発実験、平成26年度に上記の実験環境でモデルを「Recurrent-Q学習モデル」に置き換えて行う実験、そして最終年度である平成27年度に「Recurrent-Q学習モデルをロボットに実装し、実環境で行う実験」を実施する計画であった。 しかし、平成25年度に行った研究成果から生じた疑問(環境情報を離散化せず連続値のままエージェントに与える場合にどのような影響が生じるか?)について検証するため、再帰型ネットワークを用いる「Recurrent-Q学習モデル」と「過去情報参照可能Q学習」の丁度中間的能力を持つモデルである階層型ニューラルネットワークを用いる「Neural-Q学習モデル」を採用して行う研究を平成26年度に開始した。この研究のためにちょうど1年を費やすこととなってしまった。 また、研究が遅れたもう1つの原因としては、ロボット実機の価格が途中から倍近く値上がりしたことも挙げられる。平成27年度は「Recurrent-Q学習モデル」を用いた研究を行いつつ、ロボット実機を購入するための予算を確保するべく色々検討し、同年度1月にようやく目処が立った。しかし、今度は業者から年度末までに納品できないと云われたため、2台目の購入は断念せざるをえなかった。ところが、幸運なことに、研究代表者の所属機関の別チームが同型ロボット実機を入手できたため、それをお借りして2台でのコミュニケーション創発実験は行えることとなった。 平成27年度は「Recurrent-Q学習モデル」による研究の成果を国際会議で発表し、その後、査読付き論文も刊行された。 元々平成27年度が最終年度であったが1年の延長申請を行い、受理して頂いた。平成28年度ではロボット実機を用いた実験を行う予定である。
|
Strategy for Future Research Activity |
平成27年度までに、ちょうど1年遅れで「Recurrent-Q学習モデル」を用いたシミュレーション実験の研究成果を得ることができた。本当ならばこの年度が本研究の最終年度であったが1年間の延長申請を行い、受理して頂いた。 平成28年度では、前年度の研究成果を踏まえ、2体のロボット実機を用いたコミュニケーション創発実験を行う。幸運なことに、平成27年度に研究代表者が所属する機関の別チームが同型ロボット実機を入手できたため、3体で行うロボット実機での実験を2体で行うということに計画変更する。また、平成27年度までに行ってきたシミュレーション実験の計算時間が非常に長くなることが判明したため、シミュレーション実験、およびその実験から得られたデータの解析を更に高速化するために分散処理が行えるよう、ロボット実機購入を諦めたために残った予算で計算サーバを購入した。 また、平成27年度に行ったシミュレーション実験では2体ではなく「3体」のRecurrent-Q学習エージェントを用いたため、ロボット実機を用いた実験を行う前に、個体数を「2体」にした場合にどのような結果となるのかをまずはシミュレーション実験によって検証する必要がある。これを予備実験として実験結果のベースラインを確定させた上で2体のロボット実機を用いたコミュニケーション創発実験を行う予定である。 更に、研究協力者である北陸先端科学技術大学院大学の橋本教授の研究室にも本研究で採用したものと同じロボット実機が導入されたため、実環境におけるロボット実機を用いた実験の設定やロボットの制御プログラム開発等において連携・協力していく。
|