研究課題/領域番号 |
16K12504
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 基金 |
研究分野 |
知能ロボティクス
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2018年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2017年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2016年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 強化学習 / EMアルゴリズム / ロボット学習 / スマートフォンロボット / 逆強化学習 / 進化計算 / 進化的計算 / 重点サンプリング / マルチエージェント強化学習 / 知能ロボティックス / 機械学習 / KL制御 / 人工知能 |
研究成果の概要 |
サンプル効率の良い二つの強化学習アルゴリズム(適応的ベースラインを持つEMアルゴリズムによるハイパーパラメータ探査法EPHEと方策探査のための適応的多重重点サンプリングAMIS)を開発した。EPHEは決定論的方策を探査し、倒立二輪型移動ロボットに実装した。実験結果よりEPHEは標準的な方策探査法よりもサンプル効率が良いことが示された。AMISは方策探査法が過去に収集したデータを再利用する際に多重重点サンプリングを用いた推定量の分散を削減する。AMISはEPHEを含む様々な方策探査法に適用可能で、通常よりもさらにサンプル効率を改善できることを示した。さらにスマートフォンロボットを開発した。
|
研究成果の学術的意義や社会的意義 |
学術的意義はロボットの制御器の学習に適した強化学習アルゴリズムを開発したことである。通常の強化学習アルゴリズムでは確率的な制御則を用いることが多いが、生成行動系列は滑らかではないためロボットの制御には適さない。EPHEは決定論的な制御則を学習するため滑らかな行動系列を生成でき、スマートフォンロボットのような高精度のアクチュエータを持たないシステムにも適用できる。 社会的意義はデータの高効率性を実現したことである。現実的な問題設定では学習に利用できるデータは限られており、様々なアルゴリズムと組み合わせて使用可能なAMISは強化学習アルゴリズムを実問題に適用する際に重要な構成要素となると期待できる。
|