2004 年度実績報告書

報酬最大化原理および大脳基底核モデルによるゴール指向性推論機能の自動的実装

研究課題

研究課題/領域番号	15700180
研究機関	東京工業大学
研究代表者	伊藤秀昭東京工業大学, 大学院・総合理工学研究科, 助手 (20345375)
キーワード	ゴール指向性推論 / 高次脳機能 / 報酬最大化 / 大脳基底核 / 部分観測マルコフ決定過程
研究概要	本研究は、ゴール指向性推論を始めとした、人間の脳の持つ様々な高次脳機能を包括的に実現するエージェントを設計することを目標としている。そのため、ゴール指向性推論に始めから特化してエージェントを設計するのではなく、「エージェントとその環境についてのある制約条件のもとで報酬最大化という最適化問題を解く」という形でエージェントを設計し、その結果として「ゴール指向性推論がエージェントに実装された」という現象を自動的に発生させることを試みる。本年度は、第一に、そのような現象が発生する具体例を考案した。まずエージェントとして通常の入出力のほかに短期記憶素子とその読み書き能力を備えたものを考え、次に環境として多数の迷路課題を順次解決することにより報酬が与えられるものを用い、最後に報酬最大化のための最適化手法としてリレーショナル強化学習法を使用すると、それらの迷路課題の解決法としてゴール指向性推論が自動的にエージェントに学習される場合がある、ということを示すことができた。また、短期記憶素子の読み書きにコストがかかる場合、それが十分小さいときにのみゴール指向性推論が学習されることも示した。これらの結果については学会ワークショップにて発表した。第二に、より効率よく上記の現象を発生させることを目指して、新たな最適化手法の開発を行った。これについては論文発表を準備中である。第三に、より一般的な条件下で上記の現象を発生させることを試みた。特に、上記の具体例では短期記憶素子の読み書き能力についてエージェントに多くの事前知識を与えていたため、それをどこまで少なく出来るかについて検討した。その結果、かなり少ない事前知識でも問題ないことが分かってきた。しかしこの点についてはまだ十分には解明できていないので次年度の課題としたい。

研究成果
(1件)

すべて雑誌論文 (1件)

[雑誌論文] Towards Learning to Learn and Plan by Relational Reinforcement Learning2004
- 著者名/発表者名
  Hideaki Itoh
- 雑誌名
  
  Proc. of Workshop on Relational Reinforcement Learning at the 21st International Conference on Machine Learning
  
  ページ: 34-39