本研究は、ゴール指向性推論・選択的注意・作業記憶の利用などの高次脳機能を的に実現するエージェントを設計することを目的としている。このような諸機能を設計者が作りこむのは容易ではなく、例えばいつ何に注意を向けるのがよいか、また、いつどのような推論をしたらよいかなどをあらかじめ設計者が決めておくのは困難である。そこで本研究では報酬最大化原理に基づきエージェントが環境にあわせて自動的に必要な機能を発現するように設計する。さらに、複雑な機能であっても現実的な時間内に発現できるよう、部分観測マルコフ決定過程理論に基づくモデル有り学習法を用いて高速な実装を目指す。 以前の研究では、部分観測マルコフ決定過程理論に基づくモデル有り学習を可能とする既存の手法を実装し有効性を調べた。その結果、選択的注意および作業記憶の利用については簡単な問題を解くことに成功し、本研究のアプローチが有効であると確認することができた。しかしながら、ゴール指向性推論を含め、本研究が最終的に目的とするような複雑な機能を実現するためには既存手法では不足であり、より学習効率の高い手法が必要であることも明らかとなった。そこで本年度は、昨年度に続き、より高性能な手法の開発を進めた。特に、階層性を取り入れたモデル推定法およびその最適制御法を研究し、新たに開発した手法の性能を解析した。これにより、本手法がどのような場合に有効であるかを理論的に明らかにすることができた。今後はこの手法を具体的な問題に適用し上記の目的を達成したい。
|