• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実施状況報告書

経験強化型学習と深層学習を組み合わせた新たな機械学習手法の構築に関する研究

研究課題

研究課題/領域番号 17K00327
研究機関独立行政法人大学改革支援・学位授与機構

研究代表者

宮崎 和光  独立行政法人大学改革支援・学位授与機構, 研究開発部, 准教授 (20282866)

研究期間 (年度) 2017-04-01 – 2020-03-31
キーワード強化学習 / 経験強化型学習 / 深層学習 / 深層強化学習 / ロボット
研究実績の概要

現在、深層強化学習手法としてDQNが注目を集めている。それに対し、研究代表者らは、強化学習が要する試行錯誤回数の削減を指向した接近法として経験強化型学習(XoL)を提唱しており、DQNにXoL手法を組み合わせたプロトタイプ的手法であるDQNwithPSを提案している。
平成29年度においては、DQNwithPSの問題点として知られる「報酬と罰の設計問題」に対するひとつの解決方法として、報酬にスケジューリングを導入する手法を提案した。提案手法を、オリジナルのDQNwithPSでは学習困難であったAtari2600ゲーム環境中のBreakoutに適用し、DQNよりも少ない試行錯誤回数で、より高いスコアを獲得できることを示した。本成果は原著論文として学術雑誌に掲載された。
さらに、DQNwithPSを用いたAtari2600ゲーム環境における様々な実験を行い、DQNwithPSが持つ新たな問題をみつけた。具体的には、DQNwithPSでは学習手法としてQ-learning(QL)とProfit Sharing(PS)を併用しているが、これら2手法による学習が競合し、不適切な学習が行われる可能性があることを示した。この問題を解決するための手法として、Learning Acceleration DQN(LADQN)と呼ばれる手法を、共同研究を行っている学生らとともに提案した。LADQNでは、QLの学習とPSの学習が競合する場合にはPSの学習を抑えることで学習性能の悪化を抑制している。これにより、DQNwithPSでは学習が不安定であったEnduroというゲームにおいて、より安定的にDQNの性能を上回ることが確認できた。
これらの成果は、本研究課題の目的である「DQNの学習に要する試行錯誤回数の大幅削減」に大きく寄与するものであり、今後、本研究課題を推進する上で特に重要になると考える。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

平成29年度では、まず初めに、当該年度の研究実施計画で述べたDQNwithPSの問題点である「報酬と罰の設計問題」に対するひとつの解決策を与えた。具体的には、報酬のスケジューリングを導入することで、オリジナルのDQNwithPSでは学習が困難であったBreakoutと呼ばれるゲームにおいて、DQNよりも少ない試行錯誤回数で、より高いスコアを獲得できることを示した。本成果は原著論文として学術雑誌に掲載された。
さらに、DQNwithPSをより多くのAtari2600ゲーム環境に適用することで、これまで知られていなかった新たな問題を見い出すとともに、それに対する解決方法を与えた。具体的には、Learning Acceleration DQN(LADQN)と呼ばれる手法を、共同研究を行っている学生らとともに提案し、DQNwithPSで生じていた、2種類の学習器、すなわち、Q-learningとProfit Sharingとを併用することで生じる問題の解決を図った。これにより、DQNwithPSでは学習が不安定であったEnduroというゲームに対して、より安定的にDQNの性能を上回ることが確認できた。
これらの成果はともに、本研究課題の目的である「DQNの学習に要する試行錯誤回数の大幅削減」に大きく寄与するものである。そのため、本研究課題はおおむね順調に進展していると言える。

今後の研究の推進方策

本研究課題では、当初、DQNwithPSからQ-learningを削除し、完全なるXoL手法とすることで、「DQNの学習に要する試行錯誤回数の大幅削減」を実現することを考えていた。それに対し、平成29年度においては、DQNwithPSがもつ欠点を克服するためのLearning Acceleration DQN(LADQN)と呼ばれる新たな手法を提案した。そのため今後は、「DQNwithPSからQ-learningを削除する方向性」と、「LADQNを改良する方向性」の2方面から、本研究課題に接近したいと考えている。このようなふたつの方面からのアプローチを採用することで、両者の利点を含んだより優れた手法が実現するものと考える。なお、LADQNについては、現在、学習の有効性に関する定理のとりまとめを行っており、LADQNが有効に機能する問題クラスの拡大も重要な課題と考えている。
また、ゲーム問題以外の、例えば、実環境下でのリアルタイムな意思決定が要求されるような領域への適用も順次検討する。これに関連して、平成29年度には、ヒューマノイド・ロボット「ナオ」を購入した。「ナオ」を利用した実験を計画し、シミュレーション実験とは異なる実環境下で生じる問題を明確にしたいと考えている。

次年度使用額が生じた理由

ほぼ予定通り使用したが、若干の端数として1,110円残った。今後、残りの助成金と合算し物品費として使用する予定である。

  • 研究成果

    (15件)

すべて 2018 2017

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (13件) (うち国際学会 3件、 招待講演 1件)

  • [雑誌論文] Exploitation-Oriented Learning with Deep Learning - Introducing Profit Sharing to a Deep Q-Network -2017

    • 著者名/発表者名
      Kazuteru Miyazaki
    • 雑誌名

      Journal of Advanced Computational Intelligence and Intelligent Informatics

      巻: 21(5) ページ: 849-855

    • DOI

      10.20965/jaciii.2017.p0849

    • 査読あり / オープンアクセス
  • [雑誌論文] Proposal of PSwithEFP and its Evaluation in Multi-Agent Reinforcement Learning2017

    • 著者名/発表者名
      Kazuteru Miyazaki, Koudai Furukawa, and Hiroaki Kobayashi
    • 雑誌名

      Journal of Advanced Computational Intelligence and Intelligent Informatics

      巻: 21(5) ページ: 930-938

    • DOI

      doi: 10.20965/jaciii.2017.p0930

    • 査読あり / オープンアクセス
  • [学会発表] Proposal and Evaluation of an Indirect Reward Assignment Method for Reinforcement Learning by Profit Sharing2018

    • 著者名/発表者名
      Kazuteru Miyazaki, Naoki Kodama and Hiroaki Kobayashi
    • 学会等名
      IntelliSys 2018
    • 国際学会
  • [学会発表] 将来成功・失敗期待確率を用いた報酬分配型強化学習に関する研究2018

    • 著者名/発表者名
      水野大介, 小林博明, 宮崎和光
    • 学会等名
      電気学会 システム研究会(ちよだプラットフォームスクウェア 会議室504)
  • [学会発表] Character-level CNNを用いたテキスト分類に関する一考察2018

    • 著者名/発表者名
      宮崎和光
    • 学会等名
      電気学会 システム研究会(ちよだプラットフォームスクウェア 会議室504)
  • [学会発表] 学習機能を利用したディプロマ・ポリシーマッチングテストの性能改善2018

    • 著者名/発表者名
      宮崎和光, 高橋望, 森利枝
    • 学会等名
      第45回知能システムシンポジウム
  • [学会発表] 経験強化型学習を利用したdeep Q-networkの学習加速化手法の提案と有効性の検証2018

    • 著者名/発表者名
      小玉直樹, 宮崎和光, 小林博明
    • 学会等名
      第45回知能システムシンポジウム
  • [学会発表] Proposal of reward sharing method based on safety level and verification of its effectiveness in multi-agent environment2017

    • 著者名/発表者名
      Naoki Kodama, Kazuteru Miyazaki, and Hiroaki Kobayashi
    • 学会等名
      SICE Annual Conference 2017
    • 国際学会
  • [学会発表] Proposal of a Deep Q-network with Profit Sharing2017

    • 著者名/発表者名
      Kazuteru Miyazaki
    • 学会等名
      2017 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2017)
    • 国際学会
  • [学会発表] 深層学習と強化学習 - 経験強化型学習を組み込んだ深層強化学習の評価 -2017

    • 著者名/発表者名
      宮崎和光
    • 学会等名
      第61回システム制御情報学会研究発表講演会 (SCI’17)
    • 招待講演
  • [学会発表] 予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証2017

    • 著者名/発表者名
      小玉直樹, 宮崎和光, 小林博明
    • 学会等名
      平成29年電気学会 電子・情報・システム部門大会
  • [学会発表] Profit Sharingにおける迂回系列抑制法のマルチエージェント環境下での有効性の検証2017

    • 著者名/発表者名
      白石大介, 宮崎和光, 小林博明
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会2017
  • [学会発表] EFP利用による罰回避を実現したProfit Sharingの現状と課題2017

    • 著者名/発表者名
      宮崎和光, 小玉直樹, 小林博明
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会2017
  • [学会発表] 経験強化型学習を組み込んだ深層強化学習DQNwithPSの改良と有効性の検証2017

    • 著者名/発表者名
      小玉直樹, 宮崎和光, 小林博明
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会2017
  • [学会発表] ディプロマ・ポリシーと学位に付記する専攻分野の名称の整合性に関する研究 - 深層学習による接近 -2017

    • 著者名/発表者名
      宮崎和光, 森利枝, 高橋望
    • 学会等名
      電気学会 システム研究会 機械学習研究の最新動向

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi