2017 Fiscal Year Annual Research Report
Project/Area Number |
16H02927
|
Research Institution | The University of Tokyo |
Principal Investigator |
金子 知適 東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | ゲームプログラミング |
Outline of Annual Research Achievements |
思考ゲームを題材に,並列分散計算を活用した機械学習手法について研究を深めている. 研究計画に置ける計算機実験の内容を最新の研究動向を踏まえて対応し,特に同年度に発表された AlphaGo Zero, Alpha Zero の成功を受けて,深層学習の囲碁と将棋への適用を実験に加えた. また,評価関数相当のニューラルネットワークと方策を表現するニューラルネットワークの共同訓練が効果的であることから,ゲームにおける様々な共同訓練手法を応用先に加えた. 東京大学のスーパーコンピュータであるReedBush-H上で,chainermnを用いた,分散学習が可能となり,また新しく囲碁,将棋,チェスなどで共通に応用可能で汎用性の高い共同訓練の手法も開発した.次年度の発展が期待できる状況である.研究成果は,ゲームプログラミングワークショップ (箱根), Technologies and Applications of Artificial Intelligence (Taiwan) で発表を行ったほか,IEEE Transactions on Games, IEEE Conference on Computational Intelligence and GamesとPacific Rim International Conference on Artificial Intelligenceにも投稿中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
思考ゲームを題材に,並列分散計算を活用した機械学習手法について研究を深めている. 研究計画に置ける計算機実験の内容を最新の研究動向を踏まえて対応し,特に同年度に発表された AlphaGo Zero, Alpha Zero の成功を受けて,深層学習の囲碁と将棋への適用を実験に加えた. また,評価関数相当のニューラルネットワークと方策を表現するニューラルネットワークの共同訓練が効果的であることから,ゲームにおける様々な共同訓練手法を応用先に加えた. 東京大学のスーパーコンピュータであるReedBush-H上で,chainermnを用いた,分散学習が可能となり,また新しく囲碁,将棋,チェスなどで共通に応用可能で汎用性の高い共同訓練の手法も開発した.次年度の発展が期待できる状況である.研究成果は,ゲームプログラミングワークショップ (箱根), Technologies and Applications of Artificial Intelligence (Taiwan) で発表を行ったほか,IEEE Transactions on Games, IEEE Conference on Computational Intelligence and GamesとPacific Rim International Conference on Artificial Intelligenceにも投稿中である. 以上より概ね順調に推移していると考えられる.
|
Strategy for Future Research Activity |
将棋,囲碁,チェスを主な題材に方策学習や強化学習を,引き続きそれぞれを進展させるとともに全体としての性能向上に取り組む.すなわち,総合して機械学習の大規模化や学習実験の時間短縮を目指す.両者はそれぞれ,学習結果の質の向上と,学習実験の試行錯誤のサイクル短縮につながる.機械学習手法の改善に関する実験的な検証としては,より正確な評価関数の獲得だけでなく,より応用的な研究課題への適合性の検証として,思考プログラムにおける個性のある指手の実現やゲームの局面の自然言語による解説といった挑戦的な課題での活用も候補として検討する.計算機上で個性を実現するためには個性的なプレイスタイルを持つ人間プレイヤの棋譜を重視しつつ強さを保つために他の棋譜も参照したり,計算機が解説を行うために局面や戦略上の分岐点のポイントを探したりする点で,本研究の応用として有力と考えられるためである.加えて,最近発表された(研究を計画した段階では公開されていなかった)AlphaZeroの学習手法が有力であり注目度も高いと考えられるので,可能な範囲でAlphaZeroに近い手法を実証実験に加えることを引続き目指す.その際にはGPUの活用が必須であるので,東京大学が最近強化したスーパーコンピュータであるReedbush‐Lの活用などを視野に,計算機資源の利用を検討する.研究成果はIEEE International Conference of Computational Intelligence, 情報処理学会論文誌,ゲームプログラミングワークショップなどで公表予定である.
|
Research Products
(11 results)