2021 Fiscal Year Research-status Report
Combinatorial Optimizer Based on Deep Reinforcement Learning
Project/Area Number |
20K11988
|
Research Institution | Kyoto Institute of Technology |
Principal Investigator |
飯間 等 京都工芸繊維大学, 情報工学・人間科学系, 准教授 (70273547)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 深層強化学習 / 組合せ最適化 / 強化学習 / モンテカルロ木探索 |
Outline of Annual Research Achievements |
本研究の目的は、短時間での最適解の発見が困難であることが知られる組合せ最適化問題に対して、人工知能の中心技術である深層強化学習により問題の決定変数の最適値を学習させ、その学習が組合せ最適化問題を解くことに貢献するかどうかを研究することである。 本研究の実施計画では、囲碁に対して提案されている深層強化学習に基づく最適化法を開発することとなっており、昨年度(令和2年度)の研究ではその第一歩として、この深層強化学習に組み込まれているモンテカルロ木探索のみを用いて最適化を行う方法を開発した。そこで令和3年度では次の段階として、モンテカルロ木探索を組み込んだ深層強化学習に基づく組合せ最適化法の基本的な枠組みを検討した。検討した最適化法を、実際の組合せ最適化問題としてよく取り上げられる配送スケジューリング問題に適用する数値実験を行い、最適解や最適に近い解を発見できることを確認した。 また、本研究の実施計画では、テレビゲームに対して提案されている深層強化学習に基づく最適化法も開発することとなっている。そこで令和3年度では、この深層強化学習法に基づく最適化法の基本的な枠組みを検討した。検討した最適化法では、解候補の情報を強化学習の状態とし、新しい解候補を生成するためのヒューリスティクスの選択を強化学習の行動としている。開発した最適化法を、囲碁に対する深層強化学習法のときと同様に、配送スケジューリング問題に適用する数値実験を行い、最適解や最適に近い解を発見できることを確認した。 なお、問題として用いた配送スケジューリング問題に対して深層強化学習に基づく優れた最適化法を開発できるようにするために、この問題の優れた解に存在する特徴を考察できる最適化法を検討した。また、強化学習の開発で問題となる報酬の設定を自動的に行う方法を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の実施計画では、主として(1)モンテカルロ木探索を併用した深層強化学習を用いた最適化法の開発、(2)ビデオゲームに対して提案されている深層強化学習を用いた最適化法の開発、(3)ある問題に対して学習の大半を最初に一度だけ実行するだけで、種々の問題例に対する解を短時間に得る方法、すなわち汎化性能に優れた最適化法を開発することであり、研究期間は3年である。これらの研究計画のうち、研究期間2年目の令和3年度まででは(1)と(2)に関する研究がそれぞれ7割進展し、(3)は6割程度の進展となっている。進展させたこれらの研究に関して、査読付き論文を発表したり、投稿したりしている。以上より、想定通りの進捗状況と考えられるので、おおむね順調に進展している、と評価した。
|
Strategy for Future Research Activity |
令和3年度で検討した2種類の組合せ最適化法、すなわち囲碁に対して提案されている深層強化学習に基づく最適化法とテレビゲームに対して提案されている深層強化学習に基づく最適化法の開発を進めるとともに、その性能を様々な観点から評価し、解法として確立させる。前者の囲碁に対して提案されている深層強化学習に基づく最適化法はモンテカルロ木探索を併用しているが、モンテカルロ木探索は確率的な要素を含む探索問題に対する方法であるのに対して、一般の最適化問題には確率的な要素を含んでおらず、確定的である。そこで、確定的な問題に適するようにモンテカルロ木探索を改良し、それを組み込んだ深層強化学習に基づく最適化法を開発する。また、モンテカルロ木探索は深層強化学習で学習するための経験を作成するために使われているが、他の方法を用いて経験を作成しても問題はないと考えられる。そこで、組合せ最適化でよく用いられる遺伝的アルゴリズムを用いて経験を作成する深層強化学習に基づく最適化法を開発する。開発した最適化法を種々の問題に適用し、それらの性能を明らかにする。
|
Causes of Carryover |
新型コロナウイルスの影響により、国内外の会議が現地開催ではなくオンライン開催となったことなどから、旅費が不要となり、参加費もより安価となるなどした。当該補助金のみだけでなく、他の予算も同様のこととなっており、そのため当該補助金で購入予定だった物品を他の予算で購入することができるようになった。以上より、当該補助金の次年度使用額が生じることとなった。 令和4年度では、いくつかの会議は現地開催となることが予定されているので、旅費の使用額は当初の予定に近いものとなると思われる。生じた次年度使用額については物品費に回して、高速に数値計算が実行できるGPU搭載ワークステーションを購入する。また、開発する解法のプログラム作成のための謝金を計上するとともに、研究成果の発表を目指し、そのための費用の支払いに充てる。
|
Research Products
(2 results)