2015 Fiscal Year Annual Research Report
人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用
Project/Area Number |
25730150
|
Research Institution | Tokyo Denki University |
Principal Investigator |
高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 強化学習 / 限定合理性 / n本腕バンディット問題 / モンテカルロ木探索 / メタヒューリスティクス / ロボット運動学習 / 満足化 |
Outline of Annual Research Achievements |
本研究の目的は、自律的な行動学習に伴う探索と活用のジレンマ・速さと正確さのトレードオフに対し、人間の因果認知の傾向に学んだ価値関数(LSモデル)を用い、できる限り単純でかつ汎用的な代替案を提出することであった。具体的には、n本腕バンディット問題、強化学習によるロボット運動学習、モンテカルロ木探索を含めたメタヒューリスティクスの改善を行った。 3年間にわたる本研究は、当初の計画と比べると部分的に前後したが、全体的にはより早く進行した。以下計画の順に沿って成果を述べる。まず、LSモデルの分析と一般化を行い、その有効性を基本的なn本腕バンディット問題において示した。これに関しては、二編の論文を発表しており、更にもう一編の論文が執筆中である他、 LSモデルの分析と一般化によって得られたより単純なRSモデルについて論文を修正中である。 RSモデルに至り、極めて単純かつ合理的な形式が得られ、また分析が容易となったため、今後は限定合理性・計算論的合理性の枠組みの下での研究を進めていく。 次に、単純な形式での強化学習によるロボットの運動学習を扱い、 LSモデルの現実的な複雑なタスクでの一般性を示した。これに関しては、物理エンジンを用いたシミュレーションでの論文一編を発表しており、実機を構築して用いたもう一編の論文が修正中である。 最後に、メタヒューリスティクス全般での使用を目し、モンテカルロ木探索などでのLSモデルに基づくアイディアの展開を行った。これについても一編の論文が発表済みであり、他の手法への応用についても、国際会議などでは多数発表を行っている。 全体として当初の目標を果たし、多方面でアイディアの有効性を示したほか、 LSモデルの単純化であるRSやpARIsの研究も進展したため、研鑽論的/限定合理性・満足化や因果推論などより広い文脈の中で本研究の意義が今後示されていくと考えられる。
|
Research Products
(2 results)