研究課題
人工知能分野の強化学習では,環境の中で自律的に行動するAIエージェントを想定し,そのエージェントが試行錯誤を通じて振る舞いを学習する技術を研究する.本研究の目的は,不完全情報かつ多人数のゲームを題材に,モデルを持つ深層強化学習に関する基盤技術を開発することで,AIエージェントの劇的な性能向上をより広い分野で実現することにある.強化学習は,汎用性の高い枠組みで,エージェントと環境の相互作用を扱う.エージェントが「行動」することで「環境」に働きかけ,環境はエージェント行動と他の要因により確率的に「状態」を変え,エージェントは状態の一部を観測し,ときおり報酬(ペナルティを含む)を得る.ここで,どのような状態でどう行動するとどのような結果につながるかは事前に分からないだけでなく,確率的に結果が異なることもあるとする.そのため,エージェントは試行錯誤を繰り返して環境を理解する必要がある.本研究ではその対象をさらに広げて,現実に近い複雑さを持つ問題の例として,不完全情報かつ多人数のゲームを扱う.不完全情報とは,観測できない状態が存在することであり, 多人数とは,状況によって敵にも味方にもなりうる他者が存在することである.問題が複雑になるほど,エージェントの学習は困難になる.そこで本研究では, 既存技術である深層学習に加えて,不完全情報かつ多人数を扱うことに適したモデルの獲得と精密化を行う学習フレームワークを,新たに提唱し,核となる技術の確率を目指す.研究の三年度目として,本年度は昨年度までの成果を踏まえて,プレイヤが1人または2人の不完全情報ゲームにおける強化学習技術を拡張して,エージェントが3人以上の環境での学習技術に取り組んだ.
2: おおむね順調に進展している
研究計画に照らして,三年間で概ね妥当な技術を開発し評価している.
今年度までに取り組んだ成果をより発展させるとともに,マルチエージェント環境での強化学習の評価実験を拡充し論文を出版する.
補助事業の目的をより精緻に達成するための研究の実施(追加実験の実施や学会参加、論文投稿など)にあてるために補助事業期間の延長を申請し受理されたことによる.次年度に、追加実験の実施や学会参加、論文投稿を行う経費として使用する.
すべて 2020
すべて 雑誌論文 (6件) (うち査読あり 5件、 オープンアクセス 4件) 学会発表 (4件) (うち国際学会 3件)
ICONIP
巻: 12533 ページ: 580-592
10.1007/978-3-030-63833-7_49
International conference on technologies and applications of artificial intelligence
巻: N/A ページ: 175-180
25th game programming workshop
巻: 978-4-907626-46-4 C3804 ページ: 155-160
Arxiv
巻: 978-4-907626-46-4 C3804 ページ: 1-21
第25回ゲームプログラミングワークショップ
巻: 978-4-907626-46-4 C3804 ページ: 175-180
巻: 978-4-907626-46-4 C3804 ページ: 22-29