Online machine learning methods using Monte Carlo tree search
Project/Area Number |
17J09685
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Entertainment and game informatics 1
|
Research Institution | The University of Tokyo |
Principal Investigator |
万代 悠作 東京大学, 総合文化研究科, 特別研究員(DC2)
|
Project Period (FY) |
2017-04-26 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 深層学習 / マルチタスク学習 / ニューラルネットワークの判断根拠 / 評価関数 / ランキング学習 / ディープラーニング |
Outline of Annual Research Achievements |
本年度は昨年度に引き続き,「人間の棋譜を用いないコンピュータプレイヤーの構築」という研究課題を元に,より発展した内容についての研究を行なった. 上記研究課題は大規模な強化学習によって達成されているが,本年度は学習結果の質を保ちつつ必要な計算資源を削減するという重要な研究課題について取り組んだ.計算資源を削減するために,同じ訓練データからより多くの情報を獲得するということを目標にしてアルゴリズムを設計し,有効性を確認した. また関連して,既存手法で行なっているマルチタスク学習についての新たな知見を得るために別の学習目標を用いたマルチタスク学習の評価を行った.マルチタスク学習とは単一の入力から複数の出力を行う学習で,既存手法である AlphaGo Zero では単一の入力局面から,その局面の勝率とその局面で取るべき行動の予測という二つの出力を行っている.このマルチタスク学習について,取るべき行動の予測ではなく,別の予測に変更した際の性能の評価を行った.具 最後に,上記の二つのアルゴリズムなどによって得られた推論器の妥当性を評価する手法について考案した.上記の二つのアルゴリズムは深層ニューラルネットワークの学習として実装されているが,深層ニューラルネットワークの予測は人間による理解が困難であるという問題点がある.深層ニューラルネットワークは多くの行列演算によって最終的な出力を計算するが,その過程は複雑であり,決定木や線形モデルのように人間が直感的に理解することが難しい.さらに深層ニューラルネットワークによる前向き枝刈りを行うゲーム木探索アルゴリズムによる推論の場合にはより理解が困難となる.この問題点を解決すべく,木探索アルゴリズムと深層ニューラルネットワークを組み合わせた際の判断の根拠となったような入力を検出するアルゴリズムを新たに考案した.
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(5 results)