2010 Fiscal Year Annual Research Report
マルチエージェントの学習過程に注目した系安定化・全体最適化に関する研究
Project/Area Number |
21500153
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
野田 五十樹 独立行政法人産業技術総合研究所, 情報技術研究部門, 主任研究員 (40357744)
|
Co-Investigator(Kenkyū-buntansha) |
山下 倫央 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (50415759)
|
Keywords | マルチエージェント / 強化学習 / デマンドパスシミュレーション / 学習パラメータ |
Research Abstract |
本年度は、昨年度開発したRecursive Adaptation of Stepsize Parameter (RASP)の手法を推し進め、高次の導関数を用いて最適ステップサイズをニュートン法により求める方法を構築し、それによりマルチエージェント系においてどのように系を安定化・円滑化するかを確認した。 RASPを用いると高次の導関数が自動的に計算できるため、これを利用してニュートン法を導出することができる。これにより、これまで山登り法で徐々に変化させてきたステップサイズパラメータを一気に変更することが可能となる。この方法を適用したRapid RASP by Newton法(RRASP-N)は、環境の変化に迅速に追従することができ、同時にノイズに対する頑健性も担保できる。この性質は、多様な行動原理を持つエージェントが多数共存する環境において、それらのエージェントの挙動をうまく吸収する働きを発揮でき、系全体の性質を安定化させることができる。これを確認するために、共通資源を奪い合うマルチエージェント系を構成し、学習を行うエージェントとそれ以外にランダムに行動するエージェントを混在させる実験を行った。その結果、学習エージェントの存在により適切なステップサイズパラメータが動的に選ばれ、系全体の安定性向上に貢献していることが確認できた。これらの現象は理論的にも確認でき、多様な応用が期待できる。さらに、ラプラス変換・フーリエ変換との類似性に基づき、周期的に変化する環境について安定的な動作を学習する方法についても開発に着手した。 また、情報配信の計に与える影響に関しては、避難における入流シミュレーションにおける実際の人間の行動のモデル化を試み、学習モデルとの関連について検討を行った。
|
Research Products
(6 results)