2015 年度実施状況報告書

強化学習個体群における行動時系列を基にしたコミュニケーション創発メカニズムの解明

研究課題

研究課題/領域番号	25871049
研究機関	沖縄工業高等専門学校
研究代表者	佐藤尚沖縄工業高等専門学校, メディア情報工学科, 准教授 (70426576)
研究期間 (年度)	2013-04-01 – 2017-03-31
キーワード	衝突回避ゲーム / 原始的コミュニケーションの創発 / Neural-Q学習 / Recurrent-Q学習 / 基礎的行動の記号化 / 強化学習 / マルチエージェント・システム / ジェスチャー
研究実績の概要	本研究では、原始的コミュニケーションがジェスチャーで行われていたという言語の起源に関する仮説に基づき、コミュニケーションとは関係ない目的を持った「動作」がどのようにコミュニケーションを成立させる「記号」として用いられるようになるのか、また、それはどのような能力を持つ個体間において、どのような条件が必要であるのかを明らかにすることを目的とする。平成26年度の研究では、通常のQ学習とNeural-Q学習の比較実験を行った。その結果、衝突回避能力はQ学習に劣るものの、ゴール到達能力はNeural-Q学習の方が高いことが分かった。更に、一時刻前よりも古い過去からの時系列情報を参照することによって性能低下することが分かった。この性能低下の原因としては、Neural-Q学習に利用した階層型ニューラルネットが時系列データの時間的構造を適切に学習できないことが挙げられる。よって、階層型ではなく再帰型ならばこの問題を解決可能だと考えられる。そこで平成27年度の研究では、時系列データを学習可能な再帰型ニューラルネットで構成するRecurrent-Q学習を採用し、Neural-Q学習との比較実験を行った。その結果、Neural-Q学習よりもゴール到達能力は若干低下したものの、逆に衝突回避能力は向上することが分かった。更に、Recurrent-Q学習を採用した2個体間において、視線を動かすという「動作」をコミュニケーションのための「記号」として利用することで衝突を回避するという協調行動の創発も確認した。また興味深い結果として、近づいてきた他個体が自分の近くを通過するのを待つため、同じ場所で旋回するという行動を獲得する個体も確認した。これらの結果から、ジェスチャーによるコミュニケーション創発現象の解析には連続量の時系列データを扱えるRecurrent-Q学習モデルが適していると結論する。
現在までの達成度 (区分)	現在までの達成度 (区分) 4: 遅れている理由当初の予定では、平成25年度に「過去情報参照可能Q学習」を採用したエージェント群による衝突回避ゲームを用いたコミュニケーション創発実験、平成26年度に上記の実験環境でモデルを「Recurrent-Q学習モデル」に置き換えて行う実験、そして最終年度である平成27年度に「Recurrent-Q学習モデルをロボットに実装し、実環境で行う実験」を実施する計画であった。しかし、平成25年度に行った研究成果から生じた疑問（環境情報を離散化せず連続値のままエージェントに与える場合にどのような影響が生じるか？）について検証するため、再帰型ネットワークを用いる「Recurrent-Q学習モデル」と「過去情報参照可能Q学習」の丁度中間的能力を持つモデルである階層型ニューラルネットワークを用いる「Neural-Q学習モデル」を採用して行う研究を平成26年度に開始した。この研究のためにちょうど1年を費やすこととなってしまった。また、研究が遅れたもう1つの原因としては、ロボット実機の価格が途中から倍近く値上がりしたことも挙げられる。平成27年度は「Recurrent-Q学習モデル」を用いた研究を行いつつ、ロボット実機を購入するための予算を確保するべく色々検討し、同年度1月にようやく目処が立った。しかし、今度は業者から年度末までに納品できないと云われたため、2台目の購入は断念せざるをえなかった。ところが、幸運なことに、研究代表者の所属機関の別チームが同型ロボット実機を入手できたため、それをお借りして2台でのコミュニケーション創発実験は行えることとなった。平成27年度は「Recurrent-Q学習モデル」による研究の成果を国際会議で発表し、その後、査読付き論文も刊行された。元々平成27年度が最終年度であったが1年の延長申請を行い、受理して頂いた。平成28年度ではロボット実機を用いた実験を行う予定である。
今後の研究の推進方策	平成27年度までに、ちょうど1年遅れで「Recurrent-Q学習モデル」を用いたシミュレーション実験の研究成果を得ることができた。本当ならばこの年度が本研究の最終年度であったが1年間の延長申請を行い、受理して頂いた。平成28年度では、前年度の研究成果を踏まえ、2体のロボット実機を用いたコミュニケーション創発実験を行う。幸運なことに、平成27年度に研究代表者が所属する機関の別チームが同型ロボット実機を入手できたため、3体で行うロボット実機での実験を2体で行うということに計画変更する。また、平成27年度までに行ってきたシミュレーション実験の計算時間が非常に長くなることが判明したため、シミュレーション実験、およびその実験から得られたデータの解析を更に高速化するために分散処理が行えるよう、ロボット実機購入を諦めたために残った予算で計算サーバを購入した。また、平成27年度に行ったシミュレーション実験では2体ではなく「3体」のRecurrent-Q学習エージェントを用いたため、ロボット実機を用いた実験を行う前に、個体数を「2体」にした場合にどのような結果となるのかをまずはシミュレーション実験によって検証する必要がある。これを予備実験として実験結果のベースラインを確定させた上で2体のロボット実機を用いたコミュニケーション創発実験を行う予定である。更に、研究協力者である北陸先端科学技術大学院大学の橋本教授の研究室にも本研究で採用したものと同じロボット実機が導入されたため、実環境におけるロボット実機を用いた実験の設定やロボットの制御プログラム開発等において連携・協力していく。

研究成果
(3件)

すべて 2016 2015

すべて雑誌論文 (1件) (うち査読あり 1件、謝辞記載あり 1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] Emergence of Proto-Communication using Action Primitives Symbolized in Recurrent Q-Learning Agents2016
- 著者名/発表者名
  Takashi Sato
- 雑誌名
  
  Journal of Information and Communication Engineering (JICE)
  
  巻: 2(2) ページ: 87-93
- 査読あり / 謝辞記載あり
[学会発表] Symbolization of Action Primitives in Recurrent Q-Learning Agents playing a Collision Avoidance Game2016
- 著者名/発表者名
  Takashi Sato
- 学会等名
  21th International Symposium on Artificial Life and Robotics (AROB 21st 2016)
- 発表場所
  B-Con PLAZA, Beppu, JAPAN
- 年月日
  2016-01-20 – 2016-01-22
- 国際学会
[学会発表] 基礎的行動強化学習に基づくコミュニケーション創発現象の解析のためのエージェントモデルの構築2015
- 著者名/発表者名
  佐藤　尚
- 学会等名
  複雑系科学×応用哲学第2回沖縄研究会
- 発表場所
  琉球大学（19、21日）、沖縄工業高等専門学校（20日）
- 年月日
  2015-08-19 – 2015-08-21

2015 年度 実施状況報告書

強化学習個体群における行動時系列を基にしたコミュニケーション創発メカニズムの解明

研究代表者

佐藤 尚 沖縄工業高等専門学校, メディア情報工学科, 准教授 (70426576)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Emergence of Proto-Communication using Action Primitives Symbolized in Recurrent Q-Learning Agents2016

著者名/発表者名

雑誌名

[学会発表] Symbolization of Action Primitives in Recurrent Q-Learning Agents playing a Collision Avoidance Game2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 基礎的行動強化学習に基づくコミュニケーション創発現象の解析のためのエージェントモデルの構築2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

佐藤尚沖縄工業高等専門学校, メディア情報工学科, 准教授 (70426576)