研究課題/領域番号 |
25730150
|
研究機関 | 東京電機大学 |
研究代表者 |
高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 因果帰納 / 強化学習 / モンテカルロ木探索 / n本腕バンディット問題 |
研究実績の概要 |
3年間の研究の2年目であった2014年度は、(3) 2013年に本格的に導入した人間認知の適応的特性を実装した価値関数である「LSモデル」の詳細な分析を行った論文を出版した。また、(4) 強化学習に引き続き、大規模コンピューティングへの応用の一つとして、モンテカルロ木探索への応用を行った。(4)は三年目の2015年度に計画していたものである。 (3) LS モデルの理論的分析、認知的検証、そして n 本腕バンディット問題での詳細な性能検証 これまで不明であったLS モデルの理論的な性質を経験ベイズ法を用いた分析により明らかにした。LSモデルが実際に「人間認知の適応的特性を実装した価値関数」である点についてメタ分析と実験により示した。この結果は人工知能学会論文誌に発表した。 (4) モンテカルロ木探索への応用 (LST) (1-3) で研究を進めたLS モデルについて、モンテカルロ木探索への適用を行った。モンテカルロ木探索は最近将棋や囲碁などのボードゲームAIの制作に必須のものとなっているが、様々な問題や改善すべき点がある。 LST の性質はこれを補うものでありうる。 本項目の研究に関しては国際会議 ICNAAM 2014 で発表し、また雑誌論文を投稿中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
2014年度に投稿したモンテカルロ木探索の論文が出版されれば、当初の研究計画は、一通りは達成したこととなるからである。
|
今後の研究の推進方策 |
LS モデルの更なる一般化 (LSVR, LSX) や強化学習への本格的な適用 (RLLS)、また LS を単純化し、完全な理論的分析を与えられる見込みのある RS モデルについての研究は、この研究全体の意味を非常に強めるものであるため、これらを最終年度に進めていく。
|
次年度使用額が生じた理由 |
計画よりも研究が順調に進行したため、前倒し支払い請求をしたための調整である。
|
次年度使用額の使用計画 |
論文出版のための英文校正費用や投稿料として使用する予定である。
|