研究課題/領域番号 |
16J02092
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
知能情報学
|
研究機関 | 北海道大学 |
研究代表者 |
高田 圭 北海道大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2016-04-22 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
2,500千円 (直接経費: 2,500千円)
2018年度: 800千円 (直接経費: 800千円)
2017年度: 800千円 (直接経費: 800千円)
2016年度: 900千円 (直接経費: 900千円)
|
キーワード | 強化学習 / 局面評価関数 / ポリシー関数 / オーダリング関数 / 深層学習 / ゲーム木探索 |
研究実績の概要 |
本年度は,主に学術論文誌への投稿と博士論文の執筆を行った.学術論文誌への投稿を行った研究では,現在の局面の形勢を評価する局面評価関数と候補手を評価するポリシー関数をディープニューラルネットワークで構成し,この二つの評価関数を自己対戦による強化学習によって獲得する手法を提案している.二つの評価関数を作成するための既存手法では,二つの評価関数を使用するコンピュータプレイヤ同士で自己対戦を行い,自己対戦から得られる対局結果とモンテカルロ木探索の探索結果から二つの評価関数を学習している.この手法は非常に高精度な評価関数を作成可能であることが示されている.一方で,モンテカルロ木探索の探索結果を得るためには,候補手に対して多数回の評価が必要となり,膨大な計算リソースが必要となる.本研究では,モンテカルロ木探索の探索結果を必要としない手法を提案した.提案手法では,学習に必要な候補手への評価回数が減るため,計算量の削減が期待できる.提案手法によって高精度な局面評価関数とポリシー関数が作成可能であることを明らかにするため,提案手法と他の学習手法との比較や,獲得した二つの評価関数を使用するコンピュータHexと既存のコンピュータHexとの比較を行った.これらの結果を学術論文としてまとめ,IEEE Transactions on Gamesに投稿し,査読プロセスを通して掲載が決定している.また,上記の研究内容を含めこれまでの研究内容をまとめた博士論文を執筆した.
|
現在までの達成度 (段落) |
平成30年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
平成30年度が最終年度であるため、記入しない。
|