2014 Fiscal Year Research-status Report
強化学習個体群における行動時系列を基にしたコミュニケーション創発メカニズムの解明
Project/Area Number |
25871049
|
Research Institution | Okinawa National College of Technology |
Principal Investigator |
佐藤 尚 沖縄工業高等専門学校, メディア情報工学科, 准教授 (70426576)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 強化学習 / Q学習 / Neural-Q学習 / マルチエージェント / 原始的コミュニケーションの創発 / ジェスチャー / 衝突回避ゲーム |
Outline of Annual Research Achievements |
本研究では、原始的コミュニケーションがジェスチャーで行われていたという言語の起源に関する仮説に基づき、コミュニケーションとは関係ない目的を持った「動作」がどのようにコミュニケーションを成立させる「記号」として用いられるようになるのか、また、それはどのような能力を持つ個体間において、どのような条件が必要であるのかを明らかにすることを目的とする。 平成25年度の研究では、過去情報を考慮できるQ学習を採用した強化学習個体群による衝突回避ゲームを用いて、基礎的行動学習に基づくコミュニケーションが生じるかどうかを調べた。 実験の結果、一時刻前の最近傍個体の視線の角度を読み取れるモデルでは、衝突回避が促進することが分かった。これは、視線を動かすという「動作」をコミュニケーション上の「記号」として利用し、衝突回避を実現できたことを示唆する。 しかし、過去情報の参照以外に個体の学習に影響を与える要素はないのかという疑問、また、平成25年度のモデルでは環境情報を離散化して扱ったため、目的達成のために重要な状態の差異を適切に認識・利用できないのではないかという疑問が生じた。 そこで平成26年度の研究では、より現実に近い環境設定にするため、連続量の入力情報を扱えるNeural-Q学習を採用し、Q学習との比較を通して、どちらがコミュニケーション創発現象の解析に適するモデルであるのかを検証した。 実験の結果、衝突回避能力はQ学習に劣るものの、用意されたゴールへの到達能力はNeural-Q学習がQ学習に勝ることが分かった。更に、一時刻前よりも古い過去からの時系列の情報を参照することによって性能低下することが分かった。この性能低下の原因としては、本研究で採用した階層型ニューラルネットが時系列データの時間的構造を適切に学習できないことが挙げられる。よって、階層型ではなく再帰型ならばこの問題を解決可能だと考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
平成26年度の研究計画では、平成25年度に計画した過去情報参照可能なQ学習の発展版であるReccurent-Q学習を採用したエージェント群による衝突回避ゲーム・シミュレーション実験を実施、及び実験で得られたデータの解析を6月までに実施する予定であった。 しかしながら、平成25年度の研究計画が、既存計算サーバの故障・修理や新規計算サーバの納入遅延等により、大幅に遅れ、この年度の研究成果を学術論文としてまとめられたのが平成26年5月末であった(査読を経て本論文を掲載した学術誌が刊行されたのは9月)。本来ならば、ここから平成26年度の研究計画に移行し、Recurrent-Q学習モデルの実装、およびそのモデルを採用した実験を行うはずであった。 しかし、平成25年度の研究成果より新たな疑問(前述の【研究実績の概要】を参照のこと)が生じ、内容的に過去情報参照可能Q学習とRecurrent-Q学習の丁度中間に位置する学習モデルと云えるNeural-Q学習モデルを用いた研究を開始した。この研究成果は、平成26年11月下旬に岡山大で開催された学会にて発表を行った。 また、この後、シミュレーション実験の各種パラメータや学習方法の微調整を行って再実験し、とりわけ、ゲームをプレイするエージェントの個体数と空間面積を減らしても同様の結果が出るのかを確かめるために時間を費やした。その結果、前述の学会で発表した成果と比べて、個体数の大幅減による影響は殆ど無いことを確かめた。 これらの研究を行ったことにより、1月に予定していた国際会議への参加は断念せざるをえなかった。しかし、その後、1月末に上記学会より同学会が持つ英文論文集への論文投稿をオファーされ、今年度末に研究成果を英語論文としてまとめ、投稿した。当初の計画からは大分逸れてしまったが、結果的には研究目的達成のための着実な歩みになったと考えられる。
|
Strategy for Future Research Activity |
平成26年度は、想定していた時期に研究成果を出すことができず、計画していた国際会議での研究発表を行うこともできなかった。また、新たに生まれた問題の検証のために当初計画していなかったNeural-Q学習モデルの採用とそれを用いたシミュレーション実験を行ったことで、Recurrent-Q学習モデルを用いたシミュレーション実験は、平成27年度に繰り越すこととなってしまった。 元々平成27年度の研究計画では、前年度までのシミュレーション実験による研究成果を踏まえ、ロボット実機を用いた実験を行う予定であった。しかし、こちらも、4月よりスムーズに研究を遂行できるようにするため、平成26年度末にロボット実機を導入・設定することとしていたが、最低3台の導入を考えていたところ、販社の都合により、1台しか導入することができなかった。同年度末に販売が再開された際には、最初に購入した時より倍近く値上がりし、1台目を購入した際の金額で購入するためには、幾つかの条件を満たさねばならず、しかも、それらの条件を満たすことができたとしても、抽選販売となったため、確実に購入できる保証は無かった。よって、今回の販売では2台目以降の導入を諦め、平成27年度夏頃に予定されている再販で導入することを考えている。 このため、平成27年度の研究計画は、これまで以上の業務効率化を図り、前半でRecurrent-Q学習モデルを用いた研究、後半では最低でも2台のロボットを追加導入し、合計3台のロボットを用いた研究を行うという変更を余儀なくされる。 現実的には、この計画変更によって、十分な研究成果を得ることは困難であると考えられるため、平成27年度はRecurrent-Q学習モデルを用いた研究に注力し、期間延長の申請を行って、ロボット実機を用いた研究は平成28年度に実施するという変更が必要であると考えている。
|
Causes of Carryover |
元々の計画では、強化学習ロボット・システム、強化学習ロボット・行動データ解析システム、研究打合せ出張費、国内学会参加費、国際学会参加費、国際学術ジャーナル投稿料を直接経費230万円で賄う予定であった。 しかし、研究打合せに関しては、研究協力者である北陸先端科学技術大学院大学の橋本教授が1年間フランスに滞在していたため、ビデオ会議システムによる打合せを行ったことで出張費は発生しなかった。また、上述の通り、研究の遅れにより、国際会議への参加は断念せざるをえなかったため、このための出張費も発生しなかった。 更に、平成27年度に実施予定の研究で用いるロボット実機を平成26年度末に購入する計画であったが、当初導入を計画していた機体では想定していた実験が困難であることが分かったため機体を変更した。しかし、販社による販売制限により、ロボット実機を1台しか購入できなかったため、次年度使用額が生じてしまった。
|
Expenditure Plan for Carryover Budget |
平成27年度夏頃にロボット実機が再販される予定であるため、平成27年度交付予定の直接経費と平成26年度に生じた次年度使用額は、更に2台のロボット実機購入のために充てる予定である。しかしながら、平成26年度末に少量分のロボット実機の再販が行われた際に見られた販売価格の大幅なつり上げ等が再びある場合には、もう一度計画の見直しを行う予定である。
|