2015 年度実績報告書

人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用

研究課題

研究課題/領域番号	25730150
研究機関	東京電機大学
研究代表者	高橋達二東京電機大学, 理工学部, 准教授 (00514514)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	強化学習 / 限定合理性 / n本腕バンディット問題 / モンテカルロ木探索 / メタヒューリスティクス / ロボット運動学習 / 満足化
研究実績の概要	本研究の目的は、自律的な行動学習に伴う探索と活用のジレンマ・速さと正確さのトレードオフに対し、人間の因果認知の傾向に学んだ価値関数（LSモデル）を用い、できる限り単純でかつ汎用的な代替案を提出することであった。具体的には、n本腕バンディット問題、強化学習によるロボット運動学習、モンテカルロ木探索を含めたメタヒューリスティクスの改善を行った。 3年間にわたる本研究は、当初の計画と比べると部分的に前後したが、全体的にはより早く進行した。以下計画の順に沿って成果を述べる。まず、LSモデルの分析と一般化を行い、その有効性を基本的なn本腕バンディット問題において示した。これに関しては、二編の論文を発表しており、更にもう一編の論文が執筆中である他、 LSモデルの分析と一般化によって得られたより単純なRSモデルについて論文を修正中である。 RSモデルに至り、極めて単純かつ合理的な形式が得られ、また分析が容易となったため、今後は限定合理性・計算論的合理性の枠組みの下での研究を進めていく。次に、単純な形式での強化学習によるロボットの運動学習を扱い、 LSモデルの現実的な複雑なタスクでの一般性を示した。これに関しては、物理エンジンを用いたシミュレーションでの論文一編を発表しており、実機を構築して用いたもう一編の論文が修正中である。最後に、メタヒューリスティクス全般での使用を目し、モンテカルロ木探索などでのLSモデルに基づくアイディアの展開を行った。これについても一編の論文が発表済みであり、他の手法への応用についても、国際会議などでは多数発表を行っている。全体として当初の目標を果たし、多方面でアイディアの有効性を示したほか、 LSモデルの単純化であるRSやpARIsの研究も進展したため、研鑽論的／限定合理性・満足化や因果推論などより広い文脈の中で本研究の意義が今後示されていくと考えられる。

研究成果
(2件)

すべて 2015

すべて雑誌論文 (2件) (うち査読あり 2件、謝辞記載あり 2件)

[雑誌論文] A cognitive satisficing strategy for bandit problems2015
- 著者名/発表者名
  Kohno, Y., Takahashi, T.,
- 雑誌名
  
  International Journal of Parallel, Emergent and Distributed Systems
  
  巻: 0 ページ: 1-11
- DOI
  10.1080/17445760.2015.1075531
- 査読あり / 謝辞記載あり
[雑誌論文] Efficacy of a causal value function in game tree search2015
- 著者名/発表者名
  Oyo, K., Takahashi, T.
- 雑誌名
  
  International Journal of Parallel, Emergent and Distributed Systems
  
  巻: 0 ページ: 1-12
- DOI
  10.1080/17445760.2015.1064918
- 査読あり / 謝辞記載あり

2015 年度 実績報告書

人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用

研究代表者

高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)

研究成果

[雑誌論文] A cognitive satisficing strategy for bandit problems2015

著者名/発表者名

雑誌名

DOI

[雑誌論文] Efficacy of a causal value function in game tree search2015

著者名/発表者名

雑誌名

DOI

2015 年度実績報告書

高橋達二東京電機大学, 理工学部, 准教授 (00514514)