• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

強化学習を用いたコンピュータ麻雀プレイヤの構築

Research Project

Project/Area Number 17J10022
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Entertainment and game informatics 1
Research InstitutionThe University of Tokyo

Principal Investigator

水上 直紀  東京大学, 工学系研究科, 特別研究員(DC2)

Project Period (FY) 2017-04-26 – 2019-03-31
Project Status Declined (Fiscal Year 2018)
Budget Amount *help
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
Keywords強化学習 / 不完全情報ゲーム / 他人ゲーム
Outline of Annual Research Achievements

実施した研究は研究課題にあるように、強化学習を用いた麻雀プレイヤを構築した。今年度の研究では強化学習を用いて序盤の戦略の改良を行った。手法としてはアルファ碁がおこなった局面を自動で生成し、そこから最終的な結果を利用して学習行う方法である。局面生成する基準となるプレイヤと相手プレイヤが対局を行う。その途中で基準となるプレイヤがランダムな手を選択し、その局面を教師データとする。その後の最終的な結果とペアにして学習を行う。
基準となるプレイヤは現状の麻雀AI の序盤のアルゴリズムをそのまま用いる。相手はツモ
切りを行うプレイヤと基準プレイヤと同じ序盤のアルゴリズムをそのまま用いるプレイヤの二種類用意した。
局面数を一億局面生成し、学習した結果、相手をどちらにしても序盤のアルゴリズムと比較して高得点を狙う技術は向上した。しかしながら実際に対戦した結果では、相手を強くするすなわちツモ切りするプレイヤよりも序盤のアルゴリズムをそのまま用いるプレイヤで学習したプレイヤのほうが強い結果ではあったものの、元のプレイヤには実力は届かなかった。

Research Progress Status

翌年度、交付申請を辞退するため、記入しない。

Strategy for Future Research Activity

翌年度、交付申請を辞退するため、記入しない。

Report

(1 results)
  • 2017 Annual Research Report
  • Research Products

    (1 results)

All 2017

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Exploration Bonuses Based on Upper Confidence Bounds for Sparse Reward Games.2017

    • Author(s)
      水上直紀, 鈴木潤,亀甲博隆,鶴岡慶雅
    • Organizer
      In Advances in Computer Games
    • Related Report
      2017 Annual Research Report
    • Int'l Joint Research

URL: 

Published: 2017-05-25   Modified: 2024-03-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi