Project/Area Number |
23K21710
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Advanced Telecommunications Research Institute International |
Principal Investigator |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
Project Period (FY) |
2024-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2024: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
|
Keywords | 強化学習 / 非同期制御 / モデルベース / モデルフリー |
Outline of Research at the Start |
強化学習は離散時間のマルコフ決定過程としてモデル化されることが多く、学習・推論アルゴリズムの時間刻みは常に一定と仮定され、物理時間との対応はあまり考慮されてこなかった。これは実ロボットへの応用や、計算量の異なる複数の強化学習アルゴリズムを切り替える並列学習法では致命的な問題である。本研究では発生しうる遅延を明示的に考慮したモデルフリー・モデルベース強化学習法を開発し、理想的な離散時間系システムと現実的な非同期マルチレートシステムのギャップを軽減する。さらに両手法を組み合わせた、非同期分散型のモデルベース・モデルフリー協働学習法を開発する。
|