今年度、研究計画に基づきつぎのように研究を展開した。 1. 申請者らの提案による分散強化学習システムの挙動を数値シミュレーションにより把握 2. 非定常環境を想定した単体のエージェントによる強化学習システムの構築 これらのシミュレーションを行い、申請者らの提案による強化学習システムのパラメータ設定の方法を検討した。Q-学習との単純な比較はできないものの、パラメータ設定による安定度では我々の手法が優れていることが示された。しかし、最適なパラメータの探索には我々の手法にも問題点があることが確認できた。 そのシミュレーションの途中で東工大の小林らのグループにより類似の研究である「マルチエージェント強化学習の方法論」(人工知能学会学会誌、1998年7月号)が発表された。Profit SharingとQ-学習との比較がこの論文では行われているが、申請者らの手法ではパラメータの設定方法の関係でProfit Sharingとの比較が困難であるという結論に達し、その方向を見なおすこととした。そこで、Suttonらの提案によるEligibility Tracesを含めたマルチエージェント強化学習を再検討している段階である。 研究の方向を見なおしたことにより残念ながら当初の予定であった学会発表には至らなかった。上述の方向でシミュレーションによる検討を現在行っており、来年度には学会発表と論文投稿が可能ではないかと考えている。
|