本研究では、発達尺度のタスクのうちで言語に関連するものを多数行うことのできるエージェントを開発することを目的とした。その際、部分観測マルコフ決定過程(POMDP)理論を用いることによって、どのタスクを行うべきかの指示をエージェントが理解できるようにするとともに、各タスクの遂行においてどのような情報処理を行えばよいかを、エージェント自身が自動的に最適化できるようにすることを目指した。 前年度までで、「言葉を聞いて対応する絵を指さす(1歳7ヶ月レベル)」、「絵を見てその名称を答える(2歳0ヶ月レベル)」、「2本の棒を見てどちらが長いかを答える(2歳9ヶ月レベル)」、「円がいくつか描かれた絵を見て円の個数を答える(3歳9ヶ月レベル)」などのタスクを行えるようにした。また、タスクの遂行を細かな処理モジュールの組み合わせで実現するようにし、どのように各モジュールを組み合わせれば求められたタスクを遂行できるかをエージェント自身がモデル有り型強化学習により自動的に最適化できるようにした。その際に必要となる各モジュールの動作モデルはエージェントが経験から自動的に学習できるようにし、その学習には帰納論理プログラミングを用いて汎化能力をもたせたことで、タスクの数が増えても少数の経験から学習できるようにした。 本年度はさらに、強化学習ではなく階層的な確率モデルを用いた最適化手法を用いるアプローチに関して研究を進めた。特に、階層的な確率モデルの学習に関して論文を発表することができた。
|