2017 Fiscal Year Research-status Report
Research on new machine learning method combining Exploitation-oriented Learning and Deep Learning
Project/Area Number |
17K00327
|
Research Institution | National Institution for Academic Degrees and Quality Enhancement of Higher Education |
Principal Investigator |
宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 准教授 (20282866)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 強化学習 / 経験強化型学習 / 深層学習 / 深層強化学習 / ロボット |
Outline of Annual Research Achievements |
現在、深層強化学習手法としてDQNが注目を集めている。それに対し、研究代表者らは、強化学習が要する試行錯誤回数の削減を指向した接近法として経験強化型学習(XoL)を提唱しており、DQNにXoL手法を組み合わせたプロトタイプ的手法であるDQNwithPSを提案している。 平成29年度においては、DQNwithPSの問題点として知られる「報酬と罰の設計問題」に対するひとつの解決方法として、報酬にスケジューリングを導入する手法を提案した。提案手法を、オリジナルのDQNwithPSでは学習困難であったAtari2600ゲーム環境中のBreakoutに適用し、DQNよりも少ない試行錯誤回数で、より高いスコアを獲得できることを示した。本成果は原著論文として学術雑誌に掲載された。 さらに、DQNwithPSを用いたAtari2600ゲーム環境における様々な実験を行い、DQNwithPSが持つ新たな問題をみつけた。具体的には、DQNwithPSでは学習手法としてQ-learning(QL)とProfit Sharing(PS)を併用しているが、これら2手法による学習が競合し、不適切な学習が行われる可能性があることを示した。この問題を解決するための手法として、Learning Acceleration DQN(LADQN)と呼ばれる手法を、共同研究を行っている学生らとともに提案した。LADQNでは、QLの学習とPSの学習が競合する場合にはPSの学習を抑えることで学習性能の悪化を抑制している。これにより、DQNwithPSでは学習が不安定であったEnduroというゲームにおいて、より安定的にDQNの性能を上回ることが確認できた。 これらの成果は、本研究課題の目的である「DQNの学習に要する試行錯誤回数の大幅削減」に大きく寄与するものであり、今後、本研究課題を推進する上で特に重要になると考える。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成29年度では、まず初めに、当該年度の研究実施計画で述べたDQNwithPSの問題点である「報酬と罰の設計問題」に対するひとつの解決策を与えた。具体的には、報酬のスケジューリングを導入することで、オリジナルのDQNwithPSでは学習が困難であったBreakoutと呼ばれるゲームにおいて、DQNよりも少ない試行錯誤回数で、より高いスコアを獲得できることを示した。本成果は原著論文として学術雑誌に掲載された。 さらに、DQNwithPSをより多くのAtari2600ゲーム環境に適用することで、これまで知られていなかった新たな問題を見い出すとともに、それに対する解決方法を与えた。具体的には、Learning Acceleration DQN(LADQN)と呼ばれる手法を、共同研究を行っている学生らとともに提案し、DQNwithPSで生じていた、2種類の学習器、すなわち、Q-learningとProfit Sharingとを併用することで生じる問題の解決を図った。これにより、DQNwithPSでは学習が不安定であったEnduroというゲームに対して、より安定的にDQNの性能を上回ることが確認できた。 これらの成果はともに、本研究課題の目的である「DQNの学習に要する試行錯誤回数の大幅削減」に大きく寄与するものである。そのため、本研究課題はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
本研究課題では、当初、DQNwithPSからQ-learningを削除し、完全なるXoL手法とすることで、「DQNの学習に要する試行錯誤回数の大幅削減」を実現することを考えていた。それに対し、平成29年度においては、DQNwithPSがもつ欠点を克服するためのLearning Acceleration DQN(LADQN)と呼ばれる新たな手法を提案した。そのため今後は、「DQNwithPSからQ-learningを削除する方向性」と、「LADQNを改良する方向性」の2方面から、本研究課題に接近したいと考えている。このようなふたつの方面からのアプローチを採用することで、両者の利点を含んだより優れた手法が実現するものと考える。なお、LADQNについては、現在、学習の有効性に関する定理のとりまとめを行っており、LADQNが有効に機能する問題クラスの拡大も重要な課題と考えている。 また、ゲーム問題以外の、例えば、実環境下でのリアルタイムな意思決定が要求されるような領域への適用も順次検討する。これに関連して、平成29年度には、ヒューマノイド・ロボット「ナオ」を購入した。「ナオ」を利用した実験を計画し、シミュレーション実験とは異なる実環境下で生じる問題を明確にしたいと考えている。
|
Causes of Carryover |
ほぼ予定通り使用したが、若干の端数として1,110円残った。今後、残りの助成金と合算し物品費として使用する予定である。
|