研究課題/領域番号 |
17K00327
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 独立行政法人大学改革支援・学位授与機構 |
研究代表者 |
宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 准教授 (20282866)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2018年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2017年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 強化学習 / 経験強化型学習 / 深層学習 / 深層強化学習 / 知能ロボット / ロボット |
研究成果の概要 |
経験強化型学習XoLと深層学習を組み合わせた新たな機械学習手法としてLADQNやDPNと呼ばれる手法を提案した。特に、DPNは、Atari2600ゲーム環境において、一定の条件下で、代表的な深層強化学習手法であるDQNの1/10以下の試行錯誤回数で学習できることを示した。 さらに、深層学習と融合させたXoL手法を、自動車運転者の眠気検知、ツイートデータに基づく病気の症状判定などへ応用し、有効性を示した。これにより、従来の深層強化学習では困難であったリアルタイム性が要求される領域への試行錯誤に基づく学習の適用可能性を広げることに貢献した。
|
研究成果の学術的意義や社会的意義 |
強化学習などの試行錯誤に基づく学習は、膨大なデータの中から有効な制御則や戦略を獲得するのに適した接近法である。しかし、一般に、学習には膨大な試行錯誤回数を要するという問題がある。特に近年は、深層学習と融合した深層強化学習の登場により、今まで以上に、試行錯誤回数の削減が重要となっていた。 この問題に対し、本研究課題では、試行錯誤回数の大幅な削減を実現する手法の提案を行った。この成果は、ロボット制御などの、今まで困難であったリアルタイム性が重視される領域への深層強化学習の適用可能性を高めることにつながり、人工知能技術の応用範囲をこれまで以上に広げるものであると考える。
|