2021 年度実施状況報告書

深層強化学習に基づく組合せ最適化法

研究課題

研究課題/領域番号	20K11988
研究機関	京都工芸繊維大学
研究代表者	飯間等京都工芸繊維大学, 情報工学・人間科学系, 准教授 (70273547)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	深層強化学習 / 組合せ最適化 / 強化学習 / モンテカルロ木探索
研究実績の概要	本研究の目的は、短時間での最適解の発見が困難であることが知られる組合せ最適化問題に対して、人工知能の中心技術である深層強化学習により問題の決定変数の最適値を学習させ、その学習が組合せ最適化問題を解くことに貢献するかどうかを研究することである。本研究の実施計画では、囲碁に対して提案されている深層強化学習に基づく最適化法を開発することとなっており、昨年度（令和２年度）の研究ではその第一歩として、この深層強化学習に組み込まれているモンテカルロ木探索のみを用いて最適化を行う方法を開発した。そこで令和３年度では次の段階として、モンテカルロ木探索を組み込んだ深層強化学習に基づく組合せ最適化法の基本的な枠組みを検討した。検討した最適化法を、実際の組合せ最適化問題としてよく取り上げられる配送スケジューリング問題に適用する数値実験を行い、最適解や最適に近い解を発見できることを確認した。また、本研究の実施計画では、テレビゲームに対して提案されている深層強化学習に基づく最適化法も開発することとなっている。そこで令和３年度では、この深層強化学習法に基づく最適化法の基本的な枠組みを検討した。検討した最適化法では、解候補の情報を強化学習の状態とし、新しい解候補を生成するためのヒューリスティクスの選択を強化学習の行動としている。開発した最適化法を、囲碁に対する深層強化学習法のときと同様に、配送スケジューリング問題に適用する数値実験を行い、最適解や最適に近い解を発見できることを確認した。なお、問題として用いた配送スケジューリング問題に対して深層強化学習に基づく優れた最適化法を開発できるようにするために、この問題の優れた解に存在する特徴を考察できる最適化法を検討した。また、強化学習の開発で問題となる報酬の設定を自動的に行う方法を提案した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究の実施計画では、主として（１）モンテカルロ木探索を併用した深層強化学習を用いた最適化法の開発、（２）ビデオゲームに対して提案されている深層強化学習を用いた最適化法の開発、（３）ある問題に対して学習の大半を最初に一度だけ実行するだけで、種々の問題例に対する解を短時間に得る方法、すなわち汎化性能に優れた最適化法を開発することであり、研究期間は３年である。これらの研究計画のうち、研究期間２年目の令和３年度まででは（１）と（２）に関する研究がそれぞれ７割進展し、（３）は６割程度の進展となっている。進展させたこれらの研究に関して、査読付き論文を発表したり、投稿したりしている。以上より、想定通りの進捗状況と考えられるので、おおむね順調に進展している、と評価した。
今後の研究の推進方策	令和３年度で検討した２種類の組合せ最適化法、すなわち囲碁に対して提案されている深層強化学習に基づく最適化法とテレビゲームに対して提案されている深層強化学習に基づく最適化法の開発を進めるとともに、その性能を様々な観点から評価し、解法として確立させる。前者の囲碁に対して提案されている深層強化学習に基づく最適化法はモンテカルロ木探索を併用しているが、モンテカルロ木探索は確率的な要素を含む探索問題に対する方法であるのに対して、一般の最適化問題には確率的な要素を含んでおらず、確定的である。そこで、確定的な問題に適するようにモンテカルロ木探索を改良し、それを組み込んだ深層強化学習に基づく最適化法を開発する。また、モンテカルロ木探索は深層強化学習で学習するための経験を作成するために使われているが、他の方法を用いて経験を作成しても問題はないと考えられる。そこで、組合せ最適化でよく用いられる遺伝的アルゴリズムを用いて経験を作成する深層強化学習に基づく最適化法を開発する。開発した最適化法を種々の問題に適用し、それらの性能を明らかにする。
次年度使用額が生じた理由	新型コロナウイルスの影響により、国内外の会議が現地開催ではなくオンライン開催となったことなどから、旅費が不要となり、参加費もより安価となるなどした。当該補助金のみだけでなく、他の予算も同様のこととなっており、そのため当該補助金で購入予定だった物品を他の予算で購入することができるようになった。以上より、当該補助金の次年度使用額が生じることとなった。令和４年度では、いくつかの会議は現地開催となることが予定されているので、旅費の使用額は当初の予定に近いものとなると思われる。生じた次年度使用額については物品費に回して、高速に数値計算が実行できるＧＰＵ搭載ワークステーションを購入する。また、開発する解法のプログラム作成のための謝金を計上するとともに、研究成果の発表を目指し、そのための費用の支払いに充てる。

研究成果
(2件)

すべて 2022 2021

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件)

[雑誌論文] 報酬の設定を自動化した集中型高速マルチエージェント強化学習法2022
- 著者名/発表者名
  佐々木薫、飯間　等
- 雑誌名
  
  システム制御情報学会論文誌
  
  巻: 35 ページ: 39-47
- 査読あり
[雑誌論文] Genetic algorithm for scheduling of parcel delivery by drones2021
- 著者名/発表者名
  Yohei Hazama, Hitoshi Iima, Yoshiyuki Karuno and Kosuke Mishima
- 雑誌名
  
  Journal of Advanced Mechanical Design, Systems, and Manufacturing
  
  巻: 15 ページ: -
- DOI
  10.1299/jamdsm.2021jamdsm0069
- 査読あり / オープンアクセス