2011 Fiscal Year Annual Research Report
マルチエージェントの学習過程に注目した系安定化・全体最適化に関する研究
Project/Area Number |
21500153
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
野田 五十樹 独立行政法人産業技術総合研究所, サービス工学研究センター, 研究チーム長 (40357744)
|
Co-Investigator(Kenkyū-buntansha) |
山下 倫央 独立行政法人産業技術総合研究所, サービス工学研究センター, 研究員 (50415759)
|
Keywords | マルチエージェント / 強化学習 / デマンドパスシミュレーション / 学習パラメータ |
Research Abstract |
本年度は、これまで得た結果を元に、動的な環境におけるマルチエージェントの群としての挙動の分析を進め、系の制御を可能とする情報の収集・配信方法について検討を行なった。 まず、これまで進めてきた再帰的ステップサイズパラメータ調整法(RASP)を株取引市場に適用し、系全体の特徴をパラメータ化してエージェントの行動の制御に用いることを試みた。ここでは株価の変化を環境からの報酬と扱い、RASPを用いて系の特徴を抽出し、株の売り買いにどの程度適用可能かを検証した。 また、平行して、エージェント行動を制御する温度パラメータについて、エージェントが学習を進める系全体の変化の大きさとの関係を数値解析的に分析し、その結果に従ってパラメータを制御し、系全体の状態を表す情報を獲得する方法を構築した。動的環境下におけるエージェントの行動学習では、行動選択の方針、特にExplorationとExploitationの割合(以下E-E ratioと呼ぶ)を制御する温度パラメータをどう決めるのかが重要な問題となる。特にマルチエージェント環境下では各エージェントの行動選択が他エージェントの学習環境に直接影響するため、E-E ratioは十分に注意して選ぶ必要がある。それに対し、二人のエージェントが強化学習を行う場合のExplorationとExploitationの割合(E-E ratio)と行動選択が正解となる確率の関係を調べ、正解確率を最大化するE-E ratioを求める方法を提案した。この方法では、変化する利得行列に追従するためのExplorationの確保と、相互の学習に与える影響の低減のためのExploitationのトレードオフを、行動選択の正解確率最大化という確率で解く方法となっている。この最大化を求めるにあたっては、エージェント相互の行動選択の対称性を仮定しており、エージェントの社会性につながる前提を用いている。これにより、突発的に変化する環境においても、温度パラメータを適切に制御する方法を確立することができ、学習および系全体を安定させる枠組みを構築することができた。 さらには、震災における災害救助や避難行動および情報配信の調査を行ない、情報がエージェント群に与える影響についてのデータの蓄積を行なった。
|
Research Products
(5 results)