研究課題/領域番号 |
17K12809
|
研究機関 | 関西学院大学 |
研究代表者 |
大用 庫智 関西学院大学, 総合政策学部, 助教 (60755685)
|
研究期間 (年度) |
2017-04-01 – 2019-03-31
|
キーワード | モンテカルロ木探索 / 強化学習 |
研究実績の概要 |
本研究課題の目的は、巨大な探索空間において強化学習で最も重要な課題である「速さと正確さのトレードオフの既存の限界」を超える手法の開発である。そのために、人間の認知の特性の一つである満足化に着目し、その満足化の概念を強化学習のアルゴリズムであるモンテカルロ木探索に実装することで、満足化を行う探索技法を開発することである。具体的には、これまで研究対象としてきた行動価値関数(緩い対称性モデル)が複雑であったため、その行動価値関数から効率的な満足化の機能を抽出し、より単純化した満足化価値関数RS (reference satiscing)を探索技法に応用し、RSの適用範囲を拡張することを目的としてきた。 本研究課題の内容は、(1.) モンテカルロ木探索の最も単純な問題において、提案手法の基礎となる満足化価値関数の巨大な探索空間への対処に向けた基礎的な性能の検証と (2.) そのRS を活用したモンテカルロ木探索により効率的な探索を実現する探索技法を提案し、その基本的な性能を示す、ことである。 これまでの(1.)の成果として、(1-A)モンテカルロ木探索の最も単純な問題への満足化価値関数への適用、(1-B) その問題においての満足化価値関数の基礎的な性能の検証を終えている。(1-A)と(1-B)の結果をまとめると、これまでモンテカルロ木探索の最も単純な問題においては、提案手法が従来の統計学の手法を用いたアルゴリズムよりも一定の条件を満たすことで良い成果が得られることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度の研究実施計画の中では、計算量が多いコンピュータシミュレーションを実施しなければならず、それに予想以上に時間がかかっていることによる。また、それに関して研究代表者の異動等によりアルバイトの雇用に予想以上の時間がかかっていることにもよる。 また、これまでの得られた結果の中で、一定条件下においてコンピュータシミュレーションの結果に大きなばらつきがあり、予想以上に慎重な検討が必要であったことがその理由である。
|
今後の研究の推進方策 |
平成29年度の研究成果をもとに本研究課題の目的である「人間の満足化の概念を探索技法の中心的な役割を果たす木探索(モンテカルロ木探索)へ実装し、新しい探索技法を開発」を目指す。平成29年度の研究ではモンテカルロ木探索の最も単純な問題へ満足化価値関数を適用し、その基本性能の検証について進めてきた。本研究課題の中では、行動価値関数(緩い対称性モデル)を簡易化した満足化価値関数RSを利用してきた。 平成30年度の研究ではRSをモンテカルロ木探索に応用し、RSについての研究も継続しながら、進める予定である。具体的には、RSを活用したモンテカルロ木探索により効率的な探索を実現する探索技法を提案する。そして、満足化の探索能力の性能を最も単純な課題と一般性を持つ探索問題において示しつつ、モンテカルロ木探索の性能向上の阻害要因の解消を試みる。提案手法の基本的な性能を示すために、代表的なUCBアルゴリズムを比較対象としてコンピュータシミュレーションを行う。モンテカルロ木探索はディープラーニングとも相性が良いため、幅広い探索問題へのRSモデルの応用も試みる。 研究を遂行する上での課題の一つとして、広範囲の探索空間を探索する満足化の最適化基準についての議論がなされていない。この問題には緩い対称性モデルの満足化を最適化に近づけるための方法を利用できると考えられる。そのため、その方法を基準にしながら、広範囲の探索空間での探索において適切な満足化について検証する予定である。
|
次年度使用額が生じた理由 |
次年度使用額が生じた理由は平成29年度に利用を予定していたアルバイト雇用が予定通り行えなかったためである。そのため、平成30年度はコンピュータシミュレーションの実施に次年度使用額を利用予定である。また、国内外の学会での研究成果発表を行う費用としての利用も予定している。
|