強化学習を用いたコンピュータ麻雀プレイヤの構築

Research Project

Project/Area Number	17J10022
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Entertainment and game informatics 1
Research Institution	The University of Tokyo
Principal Investigator	水上直紀東京大学, 工学系研究科, 特別研究員(DC2)
Project Period (FY)	2017-04-26 – 2019-03-31
Project Status	Declined (Fiscal Year 2018)
Budget Amount *help	¥1,700,000 (Direct Cost: ¥1,700,000) Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
Keywords	強化学習 / 不完全情報ゲーム / 他人ゲーム
Outline of Annual Research Achievements	実施した研究は研究課題にあるように、強化学習を用いた麻雀プレイヤを構築した。今年度の研究では強化学習を用いて序盤の戦略の改良を行った。手法としてはアルファ碁がおこなった局面を自動で生成し、そこから最終的な結果を利用して学習行う方法である。局面生成する基準となるプレイヤと相手プレイヤが対局を行う。その途中で基準となるプレイヤがランダムな手を選択し、その局面を教師データとする。その後の最終的な結果とペアにして学習を行う。基準となるプレイヤは現状の麻雀AI の序盤のアルゴリズムをそのまま用いる。相手はツモ切りを行うプレイヤと基準プレイヤと同じ序盤のアルゴリズムをそのまま用いるプレイヤの二種類用意した。局面数を一億局面生成し、学習した結果、相手をどちらにしても序盤のアルゴリズムと比較して高得点を狙う技術は向上した。しかしながら実際に対戦した結果では、相手を強くするすなわちツモ切りするプレイヤよりも序盤のアルゴリズムをそのまま用いるプレイヤで学習したプレイヤのほうが強い結果ではあったものの、元のプレイヤには実力は届かなかった。
Research Progress Status	翌年度、交付申請を辞退するため、記入しない。
Strategy for Future Research Activity	翌年度、交付申請を辞退するため、記入しない。

Report

(1 results)

2017 Annual Research Report

Research Products
(1 results)

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Presentation] Exploration Bonuses Based on Upper Confidence Bounds for Sparse Reward Games.2017
- Author(s)
  水上直紀, 鈴木潤,亀甲博隆,鶴岡慶雅
- Organizer
  In Advances in Computer Games
- Related Report
  2017 Annual Research Report
- Int'l Joint Research