2014 年度実施状況報告書

人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用

研究課題

研究課題/領域番号	25730150
研究機関	東京電機大学
研究代表者	高橋達二東京電機大学, 理工学部, 准教授 (00514514)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	因果帰納 / 強化学習 / モンテカルロ木探索 / n本腕バンディット問題
研究実績の概要	3年間の研究の2年目であった2014年度は、(3) 2013年に本格的に導入した人間認知の適応的特性を実装した価値関数である「LSモデル」の詳細な分析を行った論文を出版した。また、(4) 強化学習に引き続き、大規模コンピューティングへの応用の一つとして、モンテカルロ木探索への応用を行った。(4)は三年目の2015年度に計画していたものである。 (3) LS モデルの理論的分析、認知的検証、そして n 本腕バンディット問題での詳細な性能検証これまで不明であったLS モデルの理論的な性質を経験ベイズ法を用いた分析により明らかにした。LSモデルが実際に「人間認知の適応的特性を実装した価値関数」である点についてメタ分析と実験により示した。この結果は人工知能学会論文誌に発表した。 (4) モンテカルロ木探索への応用 (LST) (1-3) で研究を進めたLS モデルについて、モンテカルロ木探索への適用を行った。モンテカルロ木探索は最近将棋や囲碁などのボードゲームAIの制作に必須のものとなっているが、様々な問題や改善すべき点がある。 LST の性質はこれを補うものでありうる。本項目の研究に関しては国際会議 ICNAAM 2014 で発表し、また雑誌論文を投稿中である。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由 2014年度に投稿したモンテカルロ木探索の論文が出版されれば、当初の研究計画は、一通りは達成したこととなるからである。
今後の研究の推進方策	LS モデルの更なる一般化 (LSVR, LSX) や強化学習への本格的な適用 (RLLS)、また LS を単純化し、完全な理論的分析を与えられる見込みのある RS モデルについての研究は、この研究全体の意味を非常に強めるものであるため、これらを最終年度に進めていく。
次年度使用額が生じた理由	計画よりも研究が順調に進行したため、前倒し支払い請求をしたための調整である。
次年度使用額の使用計画	論文出版のための英文校正費用や投稿料として使用する予定である。

研究成果
(5件)

すべて 2015

すべて雑誌論文 (5件) (うち査読あり 5件、オープンアクセス 2件、謝辞記載あり 5件)

[雑誌論文] 緩い対称性を持つ因果的価値関数の認知的妥当性とN本腕バンディット問題におけるその有効性2015
- 著者名/発表者名
  大用庫智, 市野学, 高橋達二
- 雑誌名
  
  人工知能学会論文誌
  
  巻: 30, 2 ページ: 403--416
- 査読あり / オープンアクセス / 謝辞記載あり
[雑誌論文] How Do Humans Handle the Dilemma of Exploration and Exploitation in Sequential Decision Making?2015
- 著者名/発表者名
  Namiki, N., Oyo, K., Takahashi, T.
- 雑誌名
  
  Proceedings of 8th International Conference on Bio-inspired Information and Communications Technologies (formerly BIONETICS
  
  巻: 10.4108 ページ: 258045
- DOI
  10.4108/icst.bict.2014.258045
- 査読あり / オープンアクセス / 謝辞記載あり
[雑誌論文] Causal Cognition in Game Tree Search2015
- 著者名/発表者名
  Oyo, K., Noguchi, N., Takahashi, T.
- 雑誌名
  
  AIP Proceedings of 12th International Conference of Numerical Analysis and Applied Mathematics (ICNAAM 2014)
  
  巻: 1648 ページ: 580003
- DOI
  10.1063/1.4912811
- 査読あり / 謝辞記載あり
[雑誌論文] A Satisficing Strategy with Variable Reference in the Multi-armed Bandit Problems2015
- 著者名/発表者名
  Kohno, Y., Takahashi, T.
- 雑誌名
  
  AIP Proceedings of 12th International Conference of Numerical Analysis and Applied Mathematics (ICNAAM 2014)
  
  巻: 1648 ページ: 580007
- DOI
  10.1063/1.4912815
- 査読あり / 謝辞記載あり
[雑誌論文] Information Utilization in the Artificial Bee Colony Algorithm on Noisy Landscapes2015
- 著者名/発表者名
  Ozawa, Y., Kohno, Y., Takahashi, T.
- 雑誌名
  
  AIP Proceedings of 12th International Conference of Numerical Analysis and Applied Mathematics (ICNAAM 2014)
  
  巻: 1648 ページ: 580004
- DOI
  10.1063/1.4912812
- 査読あり / 謝辞記載あり

2014 年度 実施状況報告書

人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用

研究代表者

高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 緩い対称性を持つ因果的価値関数の認知的妥当性とN本腕バンディット問題におけるその有効性2015

著者名/発表者名

雑誌名

[雑誌論文] How Do Humans Handle the Dilemma of Exploration and Exploitation in Sequential Decision Making?2015

著者名/発表者名

雑誌名

DOI

[雑誌論文] Causal Cognition in Game Tree Search2015

著者名/発表者名

雑誌名

DOI

[雑誌論文] A Satisficing Strategy with Variable Reference in the Multi-armed Bandit Problems2015

著者名/発表者名

雑誌名

DOI

[雑誌論文] Information Utilization in the Artificial Bee Colony Algorithm on Noisy Landscapes2015

著者名/発表者名

雑誌名

DOI

2014 年度実施状況報告書

高橋達二東京電機大学, 理工学部, 准教授 (00514514)