研究課題/領域番号 |
23K21710
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2024-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2024年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
|
キーワード | 強化学習 / 非同期制御 / モデルベース / モデルフリー |
研究開始時の研究の概要 |
強化学習は離散時間のマルコフ決定過程としてモデル化されることが多く、学習・推論アルゴリズムの時間刻みは常に一定と仮定され、物理時間との対応はあまり考慮されてこなかった。これは実ロボットへの応用や、計算量の異なる複数の強化学習アルゴリズムを切り替える並列学習法では致命的な問題である。本研究では発生しうる遅延を明示的に考慮したモデルフリー・モデルベース強化学習法を開発し、理想的な離散時間系システムと現実的な非同期マルチレートシステムのギャップを軽減する。さらに両手法を組み合わせた、非同期分散型のモデルベース・モデルフリー協働学習法を開発する。
|