研究実績の概要 |
サイバーフィジカルシステムをその構成単位ごとに自律的に行動するマルチエージェントシステムとしてモデル化した.各エージェントの構造は知的判断部,基本機能部,ネットワーク通信関連部からなる.ネットワーク通信によりプロトコルを介して結ばれるマルチエージェントシステムについて基本機能を定義し,その機能を実装した.定義された作業が協調をとりながら実行されることを確認するためプロトコルに準拠したテストを実施した.実フィールド環境では,不確実性や計測不能な未知のパラメータが存在するため,タスクの達成方法やゴールへの到達方法を事前にあらゆる場合を想定し,あらかじめ設定することは非常に困難となる.このため本研究では試行錯誤を通して環境に適応する学習制御の枠組みである強化学習を採用した. 適用例として追跡問題に強化学習を適用した.すべてのハンタは獲物を捕まえるという共通の目的を持ち, ハンタがとれる行動はどのハンタも同じである.そのような環境において,ハンタが獲物を捕まえる際,各ハンタの適した行動は一致するものがあり, 他のハンタの行動を学習することにより,少ない試行回数で適した行動を学習できると考えられる.そこで, 本研究では他のハンタの行動履歴をもとに自身のQ値を更新する手法を考案した.実験の結果,提案手法は学習は早くなっているが, 最終的な学習結果は行動履歴を共有しない手法と比べて悪くなる傾向がある.提案手法は学習終盤に他ハンタの行動を学習したことで学習精度が劣化していると考えられる.このため,他のハンタの行動履歴を利用して学習する際の学習率をエピソード数に応じて減少させ, 学習が進むにつれて他のハンタの行動履歴による学習への影響を少なくする.これにより, 学習初期は他のハンタの行動履歴を活用し, 学習が進むと自分の履歴のみを利用した学習に近づくこととなる.
|