2020 Fiscal Year Research-status Report
Combinatorial Optimizer Based on Deep Reinforcement Learning
Project/Area Number |
20K11988
|
Research Institution | Kyoto Institute of Technology |
Principal Investigator |
飯間 等 京都工芸繊維大学, 情報工学・人間科学系, 准教授 (70273547)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 深層強化学習 / 組合せ最適化 / 強化学習 / モンテカルロ木探索 |
Outline of Annual Research Achievements |
本研究の目的は、短時間での最適解の発見が困難であることが知られる組合せ最適化問題に対して、人工知能の中心技術である深層強化学習により問題の決定変数の最適値を学習させ、その学習が組合せ最適化問題を解くことに貢献するかどうかを研究することである。 本研究の実施計画では、囲碁に対して提案されている深層強化学習に基づく最適化法を開発することとなっており、その第一歩として、この深層強化学習に組み込まれているモンテカルロ木探索のみを用いて最適化を行う方法を開発することとなっている。そこで令和2年度では、組合せ最適化の典型的な問題として知られるナップサック問題に対するモンテカルロ木探索法を開発した。開発した方法では、過去に探索した中で優れた解候補を保存しておき,この保存した解候補の情報を用いて新たな解候補を生成する手続きを導入することにより、短時間に優れた解を発見できるようにした。また、スケーラビリティの高い評価値の定義を与えた。荷物数が1000で、最適解の発見が困難なベンチマーク問題50例に対して数値実験を行った結果、開発した方法で33例の最適解を発見でき、他解法である模擬アニーリング法の7例、遺伝的アルゴリズムの2例と比較して、より多くの例題で最適解を発見できる能力を有していることを確認した。 また、本研究の実施計画では、ある問題に対して学習の大半を最初に一度だけ実行するだけで、種々の問題例に対する解を短時間に得る方法、すなわち汎化性能に優れた解法を開発することとなっている。このために、深層学習を併用して汎化性能を向上させた強化学習法を提案した。また、開発する深層強化学習の基本性能を高めるために役立つ新しい強化学習法を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の実施計画では、主として(1)モンテカルロ木探索を併用した深層強化学習を用いた最適化法の開発、(2)ビデオゲームに対して提案されている深層強化学習を用いた最適化法の開発、(3)ある問題に対して学習の大半を最初に一度だけ実行するだけで、種々の問題例に対する解を短時間に得る方法、すなわち汎化性能に優れた最適化法を開発することであり、研究期間は3年である。これらの研究計画のうち、研究期間1年目の令和2年度では(1)と(3)に関する研究がそれぞれ半分程度進展し、全体の33%程度の進展となっている。進展させたこれらの研究に関して、査読付き論文を発表している。以上より、想定通りの進捗状況と考えられるので、おおむね順調に進展している、と評価した。
|
Strategy for Future Research Activity |
令和2年度で開発した、モンテカルロ木探索のみを用いて最適化を行う方法を、囲碁に対して提案されている深層強化学習に導入した組合せ最適化法を開発する。また、ビデオゲームに対して提案されている深層強化学習を用いた組合せ最適化法を開発する。一般に組合せ最適化問題全般を汎用的に解くことは困難であり、従って具体的な個々の問題を例題として取り上げながら解法を開発することが通常行われている。この例題として、令和2年度では最も基本的な組合せ最適化問題であるナップサック問題を取り上げた。これに対して、今後はより実際的な問題であるスケジューリング問題を取り上げる。スケジューリング問題の解候補の情報を強化学習の状態とし、新しい解候補を生成するためのヒューリスティクスの選択を強化学習の行動として、深層強化学習に基づく最適化法を構築する。構築した最適化法をスケジューリング問題に適用し、その性能を明らかにする。
|
Causes of Carryover |
新型コロナウイルスの影響により、国際会議が現地開催ではなくオンライン開催となったことなどから、旅費が不要となり、参加費もより安価となるなどした。当該補助金のみだけでなく、他の予算も同様のこととなっており、そのため当該補助金で購入予定だった物品を他の予算で購入することができるようになった。以上より、当該補助金の次年度使用額が生じることとなった。 引き続き令和3年度も多くの国際会議がオンライン開催となることが予定されているので、旅費の使用額は少なくなると思われる。これらの分を物品費に回して、高速に数値計算が実行できるGPU搭載ワークステーションを購入する。また、開発する解法のプログラム作成のための謝金を計上するとともに、研究成果の発表を目指し、そのための費用の支払いに充てる。
|
Research Products
(3 results)