Project/Area Number |
17J10022
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Entertainment and game informatics 1
|
Research Institution | The University of Tokyo |
Principal Investigator |
水上 直紀 東京大学, 工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2017-04-26 – 2019-03-31
|
Project Status |
Declined (Fiscal Year 2018)
|
Budget Amount *help |
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 強化学習 / 不完全情報ゲーム / 他人ゲーム |
Outline of Annual Research Achievements |
実施した研究は研究課題にあるように、強化学習を用いた麻雀プレイヤを構築した。今年度の研究では強化学習を用いて序盤の戦略の改良を行った。手法としてはアルファ碁がおこなった局面を自動で生成し、そこから最終的な結果を利用して学習行う方法である。局面生成する基準となるプレイヤと相手プレイヤが対局を行う。その途中で基準となるプレイヤがランダムな手を選択し、その局面を教師データとする。その後の最終的な結果とペアにして学習を行う。 基準となるプレイヤは現状の麻雀AI の序盤のアルゴリズムをそのまま用いる。相手はツモ 切りを行うプレイヤと基準プレイヤと同じ序盤のアルゴリズムをそのまま用いるプレイヤの二種類用意した。 局面数を一億局面生成し、学習した結果、相手をどちらにしても序盤のアルゴリズムと比較して高得点を狙う技術は向上した。しかしながら実際に対戦した結果では、相手を強くするすなわちツモ切りするプレイヤよりも序盤のアルゴリズムをそのまま用いるプレイヤで学習したプレイヤのほうが強い結果ではあったものの、元のプレイヤには実力は届かなかった。
|
Research Progress Status |
翌年度、交付申請を辞退するため、記入しない。
|
Strategy for Future Research Activity |
翌年度、交付申請を辞退するため、記入しない。
|