マルチエージェント強化学習による人間と合意形成する自動交渉エージェントの開発
Project/Area Number |
23K11230
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
丁 世堯 京都大学, 情報学研究科, 助教 (60975449)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 孝行 京都大学, 情報学研究科, 教授 (50333555)
林 冬惠 岡山大学, 環境生命自然科学学域, 准教授 (90534131)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | マルチエージェント / 強化学習 / 合意形成 / 自動交渉 / 大規模言語モデル |
Outline of Research at the Start |
本研究では、人間と合意形成するような自動交渉エージェントの開発を目指し、実世界応用によりその有用性を確認する。一方、従来の自動交渉エージェントの研究は、実世界での人間との交渉への応用には限界がある。なぜなら、従来研究はシミュレーション上のエージェント同士の交渉を中心にしているため、本物の人間と交渉での限定的な合理性や交渉回数による負荷を仮定していない。本研究では、マルチエージェント強化学習手法を用いて、人間の限定合理性に関する特徴を考慮した上で、数回の交渉で合意形成する自動交渉エージェントを開発して、オンラインの電化製品セールスなどの現実世界での試用実験により有効性を確認する。
|
Outline of Annual Research Achievements |
本研究では、人間と合意形成するような自動交渉エージェントの開発を目指し、実世界応用によりその有用性を確認する。ここでは、マルチエージェント強化学習手法を用いて、人間の限定合理性に関する特徴を考慮した上で、数回の交渉で合意形成する自動交渉エージェントを開発する。本研究では、以下の3つの研究項目を設定している。研究項目1の「人間との交渉で試行錯誤なしのマルチエージェント強化学習手法の開発」。研究項目2の「“人間の合理性を仮定しない”交渉における自動交渉戦略の実現」。研究項目3の「エージェントと人間との交渉サービス基盤の構築及び実証実験」。 研究計画書のとおり、2023年度において、研究項目1に関して速やかに開始した。具体的には、強化学習と大規模言語モデルに基づいた合意形成を支援するファシリテーションエージェントを開発した。多数の人による複数ラウンドにわたる議論のシミュレーションにより、合意形成に至ることを確認した[1]。また、合意形成のための大規模言語モデルを開発し、対立がある多様な意見から合意案を自動的に生成することができた[2]。さらに、合意案に至るまでの議論の内容を分析するため、メタ学習を用いたグラフニューラルネットワークを開発し、議論の内容を高精度で分類し、合意形成に至る議論過程を解明できるようになった[3]。 以上の内容について、人工知能国際会議PRICAI2023 (CORE B)で2本のフルペーパー[1] [2]と、国際雑誌IEICE TRANSACTIONS on Information and Systemsで1本のフルペーパー [3]が各々採択されている。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
研究計画書のとおり、研究項目1の「人間との交渉で試行錯誤なしのマルチエージェント強化学習手法の開発」については、2023年度から研究を開始し、強化学習に基づいた合意形成を支援するファシリテーションエージェントを開発した。多数の人による複数ラウンドにわたる議論のシミュレーションにより、合意形成に至ることを確認し、その成果は人工知能国際会議PRICAI2023 (CORE B)に採択された[1]。さらに、当初の計画になかった、多様な意見から合意案を自動的に生成できるような大規模言語モデルの開発も実現できて、その成果もPRICAI2023に採択された[2]。今後さらに大規模言語モデルを合意形成に取り入れることを促進させていく予定であり、当初の計画以上に進展している。
[1] Shiyao Ding and Takayuki Ito, A Deep Reinforcement Learning Based Facilitation Agent for Consensus Building among Multi-Round Discussions, The 20th Pacific International Conference on Artificial Intelligence (PRICAI 2023), November 17-19, 2023, Jakarta, Indonesia. (CORE B) [2] Shiyao Ding and Takayuki Ito, Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions, The 20th Pacific International Conference on Artificial Intelligence (PRICAI 2023), November 17-19, 2023, Jakarta, Indonesia. (CORE B) [3] Shiyao Ding and Takayuki Ito ,Pattern-Based Meta Graph Neural Networks for Argument Classifications.IEICE Transaction on Information and Systems, vol.E107-D, No. 4, pp.451-458, 2023.
|
Strategy for Future Research Activity |
研究項目1の「人間との交渉で試行錯誤なしのマルチエージェント強化学習手法の開発」では、強化学習に基づいた合意形成を支援するファシリテーションエージェントの有効性は、複数ラウンドの議論のシミュレーションにより確認したが、れから実施される予定の実在する人間の議論による実証実験に向けて、自動交渉アルゴリズムを改善し、Githubに公開する。 研究項目2の「“人間の合理性を仮定しない”交渉で自動交渉戦略の実現」では、人間は理性的に行動しても、複雑で不確実な自動交渉環境に直面し、取引が多くなればなるほど不確実性が増えるため、人間が環境を計算し理解する能力には限界がある。よって、2024年度には情報の不確実性や人間の扱える交渉空間モデルを、効用空間及び交渉空間に導入することにより、期待値推定の信頼性を確保するような自動交渉戦略を実現する。
|
Report
(1 results)
Research Products
(6 results)