1.協調的、敵対的状況での強化学習アルゴリズムの研究 複数のエージェント(知的行動主体)がインタラクトする環境下で、各エージェントがこれまでの相手の動きを含めて最適な行動を学習するプログラムの振る舞いを実験的に調べる。具体的には、協調的環境の例としてハンターゲームを、敵対的環境の例としてダンジョンゲームを考案し、それぞれに最適な学習アルゴリズムを検討した。 ハンターゲームは、3人のハンターが一人の逃走車を包囲して捕獲するゲームであるが、それぞれ独立に学習するプログラムが、「心の理論」からヒントを得た履歴制限されたエピソード型のQ学習アルゴリズムを採用することで、これまでの標準的なアルゴリズムと比較して数〜十倍程度の高速な学習が可能となることを発見した。これは、人の協調行動獲得とも関連して興味深い結果である。 ダンジョンゲームでは、怪獣と、それを避けながらゴールを目指すプレーヤのゲームであるが、これも両者が相手の動きを読んで最適な行動を学習しようとすると、どのような現象が生じるかを調べたもので、複数の安定状態や、自己のパラメタについてのゲーム理論的状況など、興味深い現象が観察された。 2.「心の理論」と心を読むアルゴリズムの機械的解釈 「心の理論」に基づいた心を読むアルゴリズムをロボットに持たせるためには、人の物まねをロボットにさせるのでは不十分であり、心を読むアルゴリズムに機械的(論理的)解釈を与える必要がある。我々は、「心の機能」と「心を読む」ことを、「心的概念」(考える、欲する、知っている、などなど)を用いずに定義して、それを実装し「心類似(mind-like)」な現象が生じるかを実験するための出発点を提案した。
|