2020 Fiscal Year Annual Research Report
実世界応用を目指した汎用的なエージェント行動学習の研究
Project/Area Number |
20J15622
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
福島 卓弥 大阪府立大学, 人間社会システム科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Keywords | RoboCup / サッカーシミュレーション / マルチエージェント / 欠損値 / ファジィ / 次元削減 / スポーツ科学 |
Outline of Annual Research Achievements |
情報の欠損に対するロバスト性を獲得するために,意図的代入法を用いたモデル学習方法を提案してきた.この手法は,学習時に欠損がなく,テスト時に情報の欠損が生じる環境において,欠損にロバストなモデルを獲得するために提案された手法であるが,2変数以上の同時欠損に対して,議論がなされていなかった.そのため,この手法の発展として,同時欠損に対する基礎研究を進めた.欠損した情報を段階的に推定する手法を提案し,2変数以上欠損する場合においても,モデルの予測誤差を理論的に最小化する値を数学的に解明した.これにより,同時欠損が頻繁に発生する本研究環境への適用に向けた,大きな進歩といえる. 敵エージェントに対して適応能力のあるエージェントを実現するためには,敵の特性(本研究では敵戦術)を正確に把握する必要がある.一般的に敵戦術の確かさや識別精度を定量的に評価することは困難である.それは,正解ラベルを獲得することが人間においても難しいためである.そこで,敵チームはそれぞれ独自の戦術を持っていると仮定し,敵チームの識別問題に置き換えることで,戦術識別の評価を実現した.本年度は,敵チームの識別精度向上を目的として,「キック確率分布」と「キック方向分布」を組み合わせた入力でファジィ推論を行う手法を提案した.提案手法により,従来手法に比べてチーム識別精度が約20%向上した. また,モデルの学習に必要な入力情報を確認する作業を行った.One-hot表現により,連続状態空間を離散状態空間に変換した.入力情報がスパースになることを解決するため,One-hot表現化したベクトルをAuto-Encoderやハッシュトリックを用いた次元削減により,スパース性を解消したうえで実験を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
汎用性を獲得するための戦術分析,ロバスト性を獲得するためのモデル学習方法に関する研究は計画通り進展している.それぞれについて,学会発表,論文投稿を行った.一方で,理想環境における強化学習については,学会等成果と言える段階に到達はしていないものの,環境構築,入力情報選定などの予備実験を順調に進めている.研究全体を見通したとき,おおむね順調に進展していると判断できる.
|
Strategy for Future Research Activity |
引き続き,理想環境下での強化学習に関する研究を進めていく.また,ロバスト性を獲得するモデル学習方法を,エージェント評価関数モデルの学習に適用し,その有効性を確認・検証する.また,意思決定モデルの汎用性を高めるため,相手に応じて評価関数を切り替えるフレームワークを構築する.
|
Research Products
(5 results)