局面状態の分類に基づく局面評価とモンテカルロ法を組み合わせたゲーム木探索
Project/Area Number |
16J02092
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Intelligent informatics
|
Research Institution | Hokkaido University |
Principal Investigator |
高田 圭 北海道大学, 情報科学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2016-04-22 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥2,500,000 (Direct Cost: ¥2,500,000)
Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2017: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2016: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 強化学習 / 局面評価関数 / ポリシー関数 / オーダリング関数 / 深層学習 / ゲーム木探索 |
Outline of Annual Research Achievements |
本年度は,主に学術論文誌への投稿と博士論文の執筆を行った.学術論文誌への投稿を行った研究では,現在の局面の形勢を評価する局面評価関数と候補手を評価するポリシー関数をディープニューラルネットワークで構成し,この二つの評価関数を自己対戦による強化学習によって獲得する手法を提案している.二つの評価関数を作成するための既存手法では,二つの評価関数を使用するコンピュータプレイヤ同士で自己対戦を行い,自己対戦から得られる対局結果とモンテカルロ木探索の探索結果から二つの評価関数を学習している.この手法は非常に高精度な評価関数を作成可能であることが示されている.一方で,モンテカルロ木探索の探索結果を得るためには,候補手に対して多数回の評価が必要となり,膨大な計算リソースが必要となる.本研究では,モンテカルロ木探索の探索結果を必要としない手法を提案した.提案手法では,学習に必要な候補手への評価回数が減るため,計算量の削減が期待できる.提案手法によって高精度な局面評価関数とポリシー関数が作成可能であることを明らかにするため,提案手法と他の学習手法との比較や,獲得した二つの評価関数を使用するコンピュータHexと既存のコンピュータHexとの比較を行った.これらの結果を学術論文としてまとめ,IEEE Transactions on Gamesに投稿し,査読プロセスを通して掲載が決定している.また,上記の研究内容を含めこれまでの研究内容をまとめた博士論文を執筆した.
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
Report
(3 results)
Research Products
(4 results)