本研究は、ゴール指向性推論・選択的注意・作業記憶の利用などの高次脳機能を包括的に実現するエージェントを設計することを目的としている。このような諸機能を設計者が作りこむのは容易ではなく、例えばいつ何に注意を向けるのがよいか、また、いつどのような推論をしたらよいかなどをあらかじめ設計者が決めておくのは困難である。そこで本研究では報酬最大化原理に基づきエージェントが環境にあわせて自動的に必要な機能を発現するように設計する。さらに、複雑な機能であっても現実的な時間内に発現できるよう、部分観測マルコフ決定過程理論に基づくモデル有り学習法を用いて高速な実装を目指す。 以前の研究では、部分観測マルコフ決定過程理論に基づくモデル有り学習を可能とする既存の手法を実装し有効性を調べた。その結果、選択的注意および作業記憶の利用については簡単な問題を解くことに成功し、本研究のアプローチが有効であると確認することができた。しかしながら、ゴール指向性推論を含め、本研究が最終的に目的とするような複雑な機能を実現するためには既存手法では不足であり、より学習効率の高い手法が必要であることも明らかとなった。そこで階層性を取り入れたモデル推定法およびその最適制御法を研究し、理論的に優れた性質を持つ手法を開発および解析してきた。本年度はこの開発および理論的解析を進めるとともに、手法を一部の具体的な問題に適用し、既存手法よりも優れた結果が得られることが多いことを示すことができた。今後はより多くの問題に適用して有効性を検討したい。
|