未知の協調・環境を想定したマルチエージェント強化学習の知識転移
Project/Area Number |
21K17807
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Okayama University |
Principal Investigator |
上野 史 岡山大学, 自然科学学域, 助教 (30880687)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 強化学習 / マルチエージェントシステム / 知識転移 / 未知環境 / ニューラルネットワーク / 知識 |
Outline of Research at the Start |
本研究では,ロボットなどの活動主体(エージェント)が複数存在するときの協調制御ルールを,周囲環境から得た情報から各々が学習するマルチエージェント強化学習において,学習すべき協調や環境が未知であるときに適応した協調行動学習法を提案する.具体的には,他の環境などで今まで学習したエージェントの学習結果を各要素に分割し,階層的に抽象化することで生成した知識を組み合わせて学習することで未知の協調・環境に適応する.
|
Outline of Annual Research Achievements |
本年度は,マルチエージェント強化学習の未知の協調,未知の環境への適応に向けた,(1)学習結果のモジュール化,(2)知識モジュールに基づく未知の協調行動学習法の提案,(3)未知環境を想定した知識の再構成法の提案の内,主にテーマ(2)および(3)に向けた調査を実施した.具体的には,知識モジュールの抽出として,深層強化学習A3Cをベースとして,獲得報酬の変化をパラメトリックな分布を構成し,報酬を獲得した目的ごとの分布を比較することで他エージェントの目的を抽出し,それぞれの目的に合わせて協調行動を学習する手法を提案した.また,ロボットナビゲーションのシミュレーション実験により手法の有効性を検証した.本提案手法は,未知の環境や不測の事態でエージェントの取るべき協調行動が不明の時に,学習結果から知識として切り出した互いの目的を組み合わせて適切な目的を達成する協調行動が学習可能である点で画期的成果となった.また,知識モジュールの組み合わせに関して,エージェントの固有の状態を抽出し連結することで新たな知識を生成し,その知識を学習により環境に対して最適にする手法を提案し,前述のナビゲーション実験によりその有効性を示した.これにより,知識モジュールの連結方法を変えることで環境に合わせた知識の再構成が可能であることが確認できた.本成果は,知識モジュールを抽出した際にそれを組み合わせることによる効果を実証できた点において重要である. なお,本成果は国際会議ICAART 2023および国内学会人工知能学会全国大会等において発表している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は,マルチエージェント強化学習の実環境適用範囲の拡大のための基盤技術確立を目指している.その目標達成に向けて,今年度は,(2)知識モジュールに基づく未知の協調行動学習法の提案および,(3)未知環境を想定した知識の再構成法の提案において重大な知見を得た.特に,今年度の成果により,知識のモジュール化およびその組み合わせによる知識生成に関する方法論を示すことが出来た点において大いに進展があった.なお,実機実験を実施できていない点には遅れが見られるが,今後手法の改良において大きな変更は必要なく,補助事業期間における進捗状況は概ね順調であるといえる.
|
Strategy for Future Research Activity |
今後は,提案手法の実機展開をベースに,未知の環境そして協調方法が不明である状況における,知識モジュールの組み合わせによる協調行動の学習方法について探求する.具体的には,実機におけるセンサ情報の不確実性を主眼におき,学習のダイナミズムを利用した知識モジュールの選択法をロボットの認識の問題に拡張して,その有効性を検証する.
|
Report
(2 results)
Research Products
(10 results)