2018 Fiscal Year Research-status Report
Research on new machine learning method combining Exploitation-oriented Learning and Deep Learning
Project/Area Number |
17K00327
|
Research Institution | National Institution for Academic Degrees and Quality Enhancement of Higher Education |
Principal Investigator |
宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 准教授 (20282866)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 強化学習 / 経験強化型学習 / 深層学習 / 深層強化学習 / ロボット |
Outline of Annual Research Achievements |
研究代表者はこれまでに、経験強化型学習と深層学習を融合させた手法としてDQNwithPSを提案している。平成30年度においては、DQNwithPSからQ-learning(QL)に相当する部分を切り離した手法であるDeep P-Network(DPN)を、共同研究を行っている大学院生らとともに提案した。 DPNは、QLに依存せずにProfit Sharing(PS)のみで学習を行うことができる初めての深層強化学習手法である。Atari2600ゲーム環境中のPongで検証したところ、条件次第では、DQNの1/10以下で学習を行えることが確認できた。これは本研究課題の目的である「学習に要する試行錯誤回数の大幅な削減」を実現するものである。 なお、DPNは、QLを用いていないことから、PS同様、非ブートストラップ手法に分類される。そのため、部分観測マルコフ決定過程(POMDPs)環境下において、特に威力を発揮する手法である。今後、POMDPs環境への対応が鍵となるような、より現実的な問題を扱うことで、DPNの有効性がより明確になるものと考える。 加えて、今年度においては、平成29年度に提案したLearning Acceleration DQN(LADQN)の発展も行った。具体的には、DQNの改善手法を統合したモデルとして知られるRainbowの知見を利用して、LADQNの改善を実現した。現時点ではDPNでは罰を扱えないので、報酬と罰が混在する例題に対してはLADQNが有望である。 これらとともに、手法としてのPSの拡張も実現した。具体的には、PSの割引率に考察を加えたDetour Path Suppression Methodと呼ばれる手法や、新たなPSベース手法であるStable Profit Sharingと呼ばれる手法を、共同研究を行っている大学院生らとともに提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成30年度においては、DQNwithPSからQ-learning(QL)に相当する部分を切り離した手法であるDeep P-Network(DPN)を、共同研究を行っている大学院生らとともに提案した。DPNは、QLに依存せずにProfit Sharing(PS)のみで学習を行うことができる初めての深層強化学習手法である。そのため、PS同様、非ブートストラップ手法となり、POMDPs環境下において特に有望な手法である。実際に、Atari2600ゲーム環境中のPongで検証したところ、条件次第では、DQNの1/10以下で学習を行えることが確認できた。これは本研究課題の目的である「学習に要する試行錯誤回数の大幅な削減」を実現するものである。 また、今年度においては、平成29年度に提案したLearning Acceleration DQN(LADQN)の発展を行った。具体的には、DQNの改善手法を統合したモデルとして知られるRainbowの知見を利用して、LADQNの改善を実現した。 さらに、PSの割引率に考察を加えたDetour Path Suppression Methodと呼ばれる手法や、新たなPSベース手法であるStable Profit Sharingと呼ばれる手法を、共同研究を行っている大学院生らとともに提案した。今後、これらの成果をDPNに取り入れることで、さらなる手法の改善が期待できる。 以上の成果はともに、本研究課題の目的である「DQNの学習に要する試行錯誤回数の大幅削減」に大きく寄与するものである。また、本年度の当初の目的である「具体的な手法の完成」につながるものである。そのため、本研究課題はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
本研究課題では、当初、罰を回避するXoL手法である予想失敗確率EFP(Expected Failure Probability)との組み合わせを視野に入れていたが、より効率を重視する立場から、LADQNの改良ならびに、手法としてのPSの改良を平成30年度において実現した。今後は、これらの知見をEFPとの組み合わせに際しても活かす予定である。 また、ゲーム問題以外の、例えば、実環境下でのリアルタイムな意思決定が要求されるような領域への適用も順次検討する。これに関しては、平成29年度に購入したヒューマノイドロボット「ナオ」を最大限活用する予定である。 さらに、近年は、大学における3ポリシーの分析といったテキストマイニングに関連する研究も行っている。これらの領域への深層強化学習の導入も今後の方策として考えている。
|