本年度は、これまで開発を進めてきた手法の一般化を行い、理論的な裏づけのある枠組みの構築を行った。 まず学習・行動選択パラメータについては、強化学習のステップサイズパラメータを周りの環境に合わせて調整する方法を構築し、Recursive Adaptation of Stepsize Parameter(RASP)と名づけて具体的な学習アルゴリズムを定式化した。この方法は強化学習で用いる指数移動平均(EMA)を再帰的に求めることで、ステップサイズパラメータによる学習対象値の高次導関数を効率よく求めるというものであり、数学的に裏づけされた汎用性の高い手法となっている。このため、さまざまな学習課題に適用でき、実際に金融データや気象データなどを用いた適応実験を進め、これらの系の分析に用いることができることがわかってきている。また、学習性能についても、いくつかの数値実験を行い、Optimal Stepsize Algorithmなどの既存手法より適切にパラメータ学習ができることが示された。 また行動選択については、デマンドバスなどのシミュレーションを行う環境を整備し、具体的事例からエージェントの行動選択やそれによる系の最適化・サービス安定化手法などを探る実験を進めた。これについては今後実験を重ね、公共交通など規模の大きい社会システムでの系の安定分析の例として用いることができるよう、整備を進める予定である。
|