研究概要 |
本年度は機械学習の分野で研究が進められてきた強化学習の手法を拡張することにより,エージェント自身に適切な協調作業の行い方を学習させることで協調設計を向上させることを提案した.エージェント間で適切な強化学習を行わせるために,エージェントの自己主張が部分問題の最適化を達成するととらえ,個々の解の評価に応じた報酬(これを解報酬と呼ぶ)を与え,また,エージェント相互の意見のすりあわせが解における部分問題間での不都合を解消しその間での適切なバランスを達成するととらえ,エージェント相互の譲歩に対する報酬(これを調和報酬と呼ぶ)を個々の解の間の差異の程度に応じて与えることで,エージェントに報酬に基づく強化学習を行わせる手法を提案した.特に,上記の2種類の報酬の相対的な大きさの関係をマルチエージェントシステムにおける新たなコントロールパラメーターとして利用し,個々の部分問題を最適化した解の生成を重視する場合には解報酬を相対的に大きく設定し,逆に部分問題間でのバランスのとれた解の生成を重視する場合には調和報酬を相対的に大きく設定することで,システム全体としての目的に応じた適切な競合解消戦略を報酬に基づく強化学習により協調的に獲得させることを目指した.提案した手法をDOS/Vマシン上にSmalltalk言語を用いて実装し,小型人工衛星の自動設計に対して適用してその有効性を検証した.
|