本研究の目的は、ゴール指向性推論・選択的注意・作業記憶の利用などの高次脳機能を包括的に実現するエージェントを設計することである。このような諸機能を設計者が作りこむのは容易ではなく、例えばいつ何に注意を向けるのがよいか、また、いつどのような推論をしたらよいかなどをあらかじめ設計者が決めておくのは困難である。そこで本研究では、報酬最大化原理に基づきエージェントが環境にあわせて自動的に必要な機能を発現するように設計する。 このようなアプローチについては代表者によるものを含めてこれまでにも既にいくつかの研究がなされているが、本研究ではそれらを発展させ、複雑な機能であっても現実的な時間内に発現できるよう、部分観測マルコフ決定過程(POMDP)理論に基づく高性能なモデル有り学習法を用いて高速な実装を目指す。 POMDPに関しては近年よい解法が次々と開発されてきているが、問題によっては満足な解が得られないことも考えられる。これは予想される困難のうちで最も大きなものであるが、必要に応じて新たな手法やPOMDP以外の解法も検討する。 また、環境モデルの学習手法としては代表者が研究した経験のあるダイナミックベイジアンネットワークのonline学習法を想定しているが、online学習は性能あるいは計算量の面で問題がある可能性も考えられる。その場合はbatch学習を採用するなど適切に対処する。
|