2016 Fiscal Year Annual Research Report
Elucidation of communication emergence mechanism based on action time series in reinforcement learning agents.
Project/Area Number |
25871049
|
Research Institution | Okinawa National College of Technology |
Principal Investigator |
佐藤 尚 沖縄工業高等専門学校, メディア情報工学科, 准教授 (70426576)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 衝突回避ゲーム / ジェスチャー理論 / 強化学習 / Recurrent-Q学習 / 原始的コミュニケーションの創発 / 基礎的行動の記号化 / マルチエージェント・システム / 暗示的フィードバック |
Outline of Annual Research Achievements |
本研究では、原始社会においてコミュニケーションが身振り手振りで行われていたという言語の起源のジェスチャー仮説の検証を目的とする。 平成27年度の研究では、時系列データを学習可能なRecurrent-Q学習モデルを採用し、2個体間での衝突回避ゲームのシミュレーション実験を行った。その結果、視線を動かす動作をシグナルとして用いて衝突回避するという協調行動の創発を確認した。 平成28年度は、更に実環境でのRecurrent-Q学習モデルのコミュニケーション創発能力を検証するため、ロボットにこのモデルを実装して衝突回避ゲームを行うことにした。しかし、本研究の基礎になっている先行研究の実験設定は、ロボットに直接採用することのできないやや非現実的なものであった。そこで、相手の体と頭の向きを判定する等のことを実現するため、それらの様々な向きのパターン画像の事前学習等の予備実験を行うことにした。しかし、この段階でロボットの度重なる故障や不具合に見舞われ、実験の継続が極めて困難となった。 そこで研究計画を変更し、コミュニケーション成立前の原始社会において、何がこの成立に貢献し得るものであるのかに関する仮説を立て、検証を行った。原始社会という状況を想定した場合、コミュニケーション成立の阻害要因としては、①個体毎に形成する概念が異なる点、②この成立前にはやりとりする者同士の間での明示的フィードバックを行えない点が考えられる。これらを基に、ある物体に関する情報を得て複数の行動を想起する場合、相手を混乱させぬために1つの行動のみを選択する等の相手以外の「状況」からの非明示的フィードバックがあると考え、これを「暗示的フィードバック」として提案した。物体・概念・動作の組合せを学習し、個体間で示し合うシミュレーション実験を行った結果、コミュニケーションの成立に暗示的フィードバックが有意に寄与することが分かった。
|