研究課題/領域番号 |
17J08724
|
研究機関 | 電気通信大学 |
研究代表者 |
上野 史 電気通信大学, 情報理工学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2017-04-26 – 2020-03-31
|
キーワード | マルチエージェントシステム / 強化学習 / 動的変化 / 報酬 |
研究実績の概要 |
マルチエージェント強化学習(Multi-Agent Reinforcement Learning: MARL)はロボットのような観測した状態に対し適切に振舞う複数の主体(エージェント)が協調的な振舞いを学習し,困難な課題を解決する手法です.しかしながら実用環境では協調的振舞いは変化するため,MARLによる追従は困難です.本研究は,MARLの実環境適用範囲の拡大のための基盤技術確立を目指し,3年間で1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の3つのテーマに取り組みます.平成30年度ではテーマ1,2に取り組み,主に(1)エージェント数,(2)目的状態及び目的数,(3)報酬値3種類の動的変化に追従可能な非通信協調行動学習法の提案及び理論的補強を行いました.また,テーマ3についても(3)実問題解決に向けた不正確なデータを用いた学習法を考案しました.特に本年度は理論的補強に主眼を置き,各提案手法における最適性とそのための条件,そして適用限界を理論的に示しました.加えて(3)については複数の機械学習法を取り入れ,実問題に向けた不正確な情報しか得られない環境における適切な学習法を考案する等,理論を主眼に置きつつMARLを展開し,今後に向けた準備を着々と進めております.課題(1)の成果は国際会議PRIMA2018にて発表しました.また,課題(2)の成果は,(1)のものと合わせて国際会議ECML PKDD2019に投稿中であり,英文ジャーナルJCMSIに現在条件付きで採録が決定しております.また,課題(3)の成果は国内学会SSI2018にてポスター発表を行い,国際ジャーナルMachine Learningへ現在投稿中です.そして課題(4)の成果は国際会議GECCO2018にて発表を行うなど,対外的に高い評価を受けています.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は2年目の研究計画である協調行動学習の理論的補強を主軸にエージェント数の動的変化,目的状態と目的数の動的変化,報酬値の動的変化に適応可能な学習法の提案及び理論的補強と,3年目の課題に向けた不正確な環境情報に適応可能な学習法の提案を行い,その効果と適用範囲を示した.具体的にはエージェント数の動的変化に追従するため,エージェントの達成目的を制限する手法を提案し,その有効性を実験により示した.そして各エージェントが達成すべき目的の数を調節することで任意数エージェントであっても協調行動を学習可能であることを理論的に示した.また,目的状態と目的数の動的変化に追従するために,エージェントの獲得報酬値の合計を目的達成回数で割った期待値を提案し,実験によりその有効性を示した.期待値は目的状態や目的数が変化すれば変化するので,その変化に追従し学習することで目的状態や目的数に追従して協調行動が非通信に学習できる.そして,報酬値の動的変化に対しては,報酬値と最短ステップ数とを統合した新たな指標を提案し,実験によりその有効性を検証した.これは報酬値から行動の価値を推定しその価値が等しくなる時,初期状態から何ステップ経ったときの行動であるかを疑似的に計算したものであり,これにより報酬値が動的変化したとしてもそれに追従して協調行動を学習可能となる.更に理論的分析により,指標は報酬値及びステップ数の数値の大きさに依存せずに評価可能であることが示されている.最後に,実問題における不正確な環境情報から適切な学習が行える方法を提案した.この知見により,知識構造はif-thenルールで利用する方が不正確データにおける頑健性があり,更に木構造による学習を用いて事前に実問題の情報を補完することで,不正確なデータでも本提案手法が適用可能であることを示しました.以上から本年度の研究計画は十分達成されたと言えます.
|
今後の研究の推進方策 |
今後は3年間で取り組むテーマである1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の内,主にテーマ3に取り組みます.具体的には,平成30年度に取り組んだ動的変化が複合した上で不測の事態(エージェントの故障)が起こる環境に追従する協調行動学習法を提案し,その理論的補強を行います.また,3年目の計画に従い,実問題である災害地物資運搬問題の高度なシミュレーション環境を構築し,提案手法の有効性を検証する予定です.そのうえで,災害地物資運搬問題の適用上の問題点として1) 環境の情報を入力してから答えを出すまでの学習速度,そして2) シミュレーション環境と実問題環境が異なる場合の対処法の2個が考えられ,対処する必要があります.つまり,実問題において環境は刻一刻と替わるもので,学習に時間がかかってしまってはその結果は古いものになってしまう恐れがあります.そして仮に学習できたとしてもシミュレーションで学習した結果が必ずしも適用できるものであるとは限りません.今後はこれらの問題に対応するため,まずエージェントが学習中に動作不能となった時に追従し,学習可能な手法を提案します.具体的にはこの変化は各エージェントの獲得報酬値が変化するため,それに追従して学習することで対処可能であると考えています.次に,学習の高速化に取り組みます.これに関しては,1回の学習で得られる情報を利用し,逆強化学習を用いて学習ができていない状態と行動の価値を推定する手法を提案します.最後に,実問題に適用してシミュレーション結果が適用できない時に対応するため,今まで学習した結果を分割し組み合わせる手法を提案し,解決を目指します.
|