社会インフラを構成するシステムをその構成単位ごとに自律的に行動するマルチエージェントシステムとしてモデル化した.各エージェントの構造は知的判断部,基本機能部,ネットワーク通信関連部からなる.実フィールド環境では,不確実性や計測不能な未知のパラメータが存在するため,タスクの達成方法やゴールへの到達方法を事前にあらゆる場合を想定し,あらかじめ設定することは非常に困難となる.このため本研究では試行錯誤を通して環境に適応する学習制御の枠組みである協調学習を提案した. 協調学習の適用例として追跡問題にQ学習を適用した.完全知覚学習と呼ばれる学習法で学習すると,エージェントの数が多くなるにつれて状態数の爆発が起こってしまうという問題がある.そこで,着目するエージェントの数を2 体に限定することにより,状態数を減らしてQ学習の速度を速くした.しかし,問題として知覚精度を下げて得られる知識を減らしていることにより,学習の後期における行動選択の精度が低下することが挙げられる.そのため,長期的な性能は完全知覚学習と比較すると劣ってしまう.そこで,切り換え学習を用いる.Q学習において,特に時間のかかる初期の学習を知覚精度を下げて高速化し,ある程度学習が進んだ段階で完全知覚に戻すことを考える.ここで,初期の知覚精度を下げた影響は完全になくならないため,行動判断の精度を完全に保つことはできない.この問題を解決するために学習を切り換えるための,適切なタイミングを得るためにゴールデンクロスを利用した. 公正なシステム運用方式を獲得する協調学習法であるQ 学習を十分確立し,検証するために協調学習の典型的なベンチマークである追跡問題を例に徹底的にアルゴリズムを見直した.エージェントの知的判断部を実現してシステムとしてまとめ,プロトタイプシステムを構築し,シミュレーションによる評価を行い良好な結果を得た.
|