利益分配原理に基づく深層強化学習の革新的進化と実問題への応用に関する研究

研究課題

研究課題/領域番号	21K12024
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	独立行政法人大学改革支援・学位授与機構
研究代表者	宮崎和光独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)
研究分担者	山口周独立行政法人大学改革支援・学位授与機構, 研究開発部, 特任教授 (10182437) 原田拓東京理科大学, 理工学部経営工学科, 准教授 (70256668) 小玉直樹明治大学, 理工学部, 助教 (60908747)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	深層強化学習 / 利益分配原理 / 深層経験強化型学習 / スマートエネルギーシステム / 信号機制御 / ツイートデータ / ロボット制御 / 強化学習 / 深層学習 / 経験強化型学習
研究開始時の研究の概要	近年、深層強化学習が注目されているが学習に多くの試行錯誤を要するという問題がある。それに対し研究代表者らは、経験を強く強化する接近法である経験強化型学習における利益分配原理に基づく手法を提案し、試行錯誤回数の削減を実現している。しかし、学習結果がばらつく場合が多く解決が望まれていた。そこで本研究では、ばらつきを抑えた深層経験強化型学習の提案を主目標に掲げる。さらに副目標としてマルコフ決定過程を超えるクラスやマルチエージェント環境下での挙動の明確化を掲げ、実問題への応用を通じ提案手法の有効性を主張する。その結果、新たな選択肢となり得る手法が確立し実問題への適用レベルを飛躍的に向上できると考える。
研究実績の概要	当該年度においては、これまでに提案してきた利益分配原理（PS原理）に基づく手法を利用した「応用例の探求」を中心に研究を進めた。学術論文「Traffic Signal Control System Using Deep Reinforcement Learning With Emphasis on Reinforcing Successful Experiences」では、信号機制御を題材に、PS原理に基づく手法であるDual Targeting Algorithm（DTA）の有効性を確認した。特に、これまで明らかでなかったDTAのマルチエージェント環境下での有効性を確認できた意義が大きく、応用例探求に関する重要な成果と言える。さらに「Proposal and Evaluation of a Course-Classification-Support System Emphasizing Communication with the Sub-committees Within the Committee of Validation and Examination for Degrees」では、本研究課題で応用例として掲げるカリキュラム分析支援システムの要となる「科目分類支援システム」の研究開発を進めた。加えて、口頭発表「マルチエージェント環境下における強化学習を用いたネガティブツイートの抑制」では、マルチエージェント環境下での間接報酬に関する定理の検証を行い、PS原理に基づく手法が、他手法よりも、ネガティブなツイートを抑制できることを示した。以上より、当該年度では「応用例の探求」を中心に研究を進めるとともに、副目標のひとつである「マルチエージェント環境下での間接報酬との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに寄与する成果を得た。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究課題では、前年度において、本研究課題の主目標である「ばらつきを抑えた経験強化型学習手法」を提案している。それに対し、当該年度では、前年度の成果を踏まえた「応用例の探求」と「副目標の達成」に注力した。まず、「応用例の探求」としては、「信号機制御」および「ツイートデータ」を題材とした「マルチエージェント環境下での応用例」の探求を進めた。数値実験を通じて、両応用例ともに、PS原理に基づく手法が、他の手法に比べ、有効に機能することを示した。加えて、本研究課題で当初から計画していた「カリキュラム分析システム」の主たる要素である「科目分類支援システム」の研究開発を進めた。一方、「副目標の達成」としては、ふたつある副目標のうちのひとつである「マルチエージェント環境下での間接報酬との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに注力した。特に、「ツイートデータ」を題材とした研究においては、マルチエージェント環境下での間接報酬に関する定理について、実際のツイートデータを用いた検証を行った。以上の成果から、本研究課題は「おおむね順調に進展している」と判断した。
今後の研究の推進方策	当該年度では、PS原理に基づく手法を用いた「応用例の探求」を進めたが、今後は、これまで行ってきた応用例のさらなる発展を考えている。例えば、信号機制御に関しては、より現実の環境に近い複雑なマルチエージェント環境下での学習を検討している。また、ツイートデータを題材とした研究においては、現時点では、深層学習との組み合わせは実現されていない。そこで、ツイートの類型化部分に深層学習を導入することで、PS原理に基づく「深層経験強化型学習(DeePS)」としての有効性の検証を考えている。一方、「科目分類支援システム」の研究開発では、当該年度では、深層学習手法としての検証を行ったのみであり、強化学習や経験強化型学習との組み合わせは実現されていない。そこで今後は、「科目分類支援システム」にDeePSを組み合わせることで、より有効な支援システムの構成を検討する予定である。本研究課題における「副目標の達成」については、ふたつある副目標のうちのひとつである「マルチ―エージェント環境下での間接報酬との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに関する成果を得たが、もうひとつの副目標である「PS原理と適格度トレースとの関係を整理し、MDPs（マルコフ決定過程）を超えるクラスでの有効性を明らかにする」ことに関する成果は得られていない。そこで、残りの研究期間では、後者の副目標の達成に注力し、本研究課題のとりまとめを行う予定である。

報告書

(2件)

2022 実施状況報告書
2021 実施状況報告書

研究成果

(28件)

すべて 2023 2022 2021

すべて雑誌論文 (7件) (うち査読あり 7件、オープンアクセス 2件) 学会発表 (20件) (うち国際学会 7件) 図書 (1件)

[雑誌論文] Proposal and Evaluation of a Course-Classification-Support System Emphasizing Communication with the Sub-committees Within the Committee of Validation and Examination for Degrees2023
- 著者名/発表者名
  Miyazaki Kazuteru、Yamaguchi Syu、Mori Rie、Yoshikawa Yumiko、Saito Takanori、Suzuki Toshiya
- 雑誌名
  
  Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering
  
  巻: 477 ページ: 123-130
- DOI
  10.1007/978-3-031-29126-5_10
- ISBN
  9783031291258, 9783031291265
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Surface Hydroxyl-Ion Diffusion and Hierarchical Structure of Adsorbed Water on Hydrated Layered Double Hydroxides2023
- 著者名/発表者名
  Yamasaki Tomoyuki、Iimura Soshi、Hosono Hideo、Yamaguchi Shu
- 雑誌名
  
  The Journal of Physical Chemistry C
  
  巻: 127 号: 12 ページ: 6045-6053
- DOI
  10.1021/acs.jpcc.3c00275
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] 学位に付記する専攻分野の名称とディプロマ・ポリシーの整合性に関する研究2022
- 著者名/発表者名
  宮崎和光、高橋望、森利枝
- 雑誌名
  
  電気学会論文誌Ｃ（電子・情報・システム部門誌）
  
  巻: 142 号: 2 ページ: 117-128
- DOI
  10.1541/ieejeiss.142.117
- NAID
  130008150248
- ISSN
  0385-4221, 1348-8155
- 年月日
  2022-02-01
- 関連する報告書
  2021 実施状況報告書
- 査読あり
[雑誌論文] Traffic Signal Control System Using Deep Reinforcement Learning With Emphasis on Reinforcing Successful Experiences2022
- 著者名/発表者名
  Kodama Naoki、Harada Taku、Miyazaki Kazuteru
- 雑誌名
  
  IEEE Access
  
  巻: 10 ページ: 128943-128950
- DOI
  10.1109/access.2022.3225431
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Modeling of placebo effect in stochastic reward tasks by reinforcement learning2022
- 著者名/発表者名
  Miyazaki Kazuteru
- 雑誌名
  
  Procedia Computer Science
  
  巻: 213 ページ: 255-262
- DOI
  10.1016/j.procs.2022.11.064
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Home Energy Management Algorithm Based on Deep Reinforcement Learning Using Multistep Prediction2021
- 著者名/発表者名
  Kodama Naoki、Harada Taku、Miyazaki Kazuteru
- 雑誌名
  
  IEEE Access
  
  巻: 9 ページ: 153108-153115
- DOI
  10.1109/access.2021.3126365
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Proposal and evaluation of deep exploitation-oriented learning under multiple reward environment2021
- 著者名/発表者名
  Miyazaki Kazuteru
- 雑誌名
  
  Cognitive Systems Research
  
  巻: 70 ページ: 29-39
- DOI
  10.1016/j.cogsys.2021.07.002
- 関連する報告書
  2021 実施状況報告書
- 査読あり
[学会発表] マルチエージェント環境下における強化学習を用いたネガティブツイートの抑制2023
- 著者名/発表者名
  宮崎和光
- 学会等名
  第50回知能システムシンポジウム
- 関連する報告書
  2022 実施状況報告書
[学会発表] Effectiveness of Character-level CNN and its Examination of Perturbation for Weights2023
- 著者名/発表者名
  Miyazaki Kazuteru、Ida Masaaki
- 学会等名
  28th International Symposium on Artificial Life and Robotics (AROB 28th 2023)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Learning Thresholds to Select Cooperative Partners by Applying Deep Reinforcement Learning in Distributed Traffic Signal Control2023
- 著者名/発表者名
  Matsuta Shinya、Kodama Naoki、Harada Taku
- 学会等名
  38th International Conference on Computers and Their Applications
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Distributed Traffic Signal Control with Fairness Using Deep Reinforcement Learning2023
- 著者名/発表者名
  Shirasaka Shogo、Kodama Naoki、Harada Taku
- 学会等名
  SICE International Symposium on Control Systems 2023
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 強化学習を用いたネガティブツイートの抑制2022
- 著者名/発表者名
  宮崎和光
- 学会等名
  計測自動制御学会システム・情報部門学術講演会2022
- 関連する報告書
  2022 実施状況報告書
[学会発表] 経験強化型深層強化学習による Atari2600 シミュレーション2022
- 著者名/発表者名
  小玉直樹、原田拓、宮崎和光
- 学会等名
  計測自動制御学会システム・情報部門学術講演会2022
- 関連する報告書
  2022 実施状況報告書
[学会発表] 説明可能な深層強化学習法の提案2022
- 著者名/発表者名
  小玉直樹、原田拓、宮崎和光
- 学会等名
  電気学会C部門大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 深層学習を利用したBioDOS にとって有用な論文の発見2022
- 著者名/発表者名
  宮崎和光、木賀大介、安田翔也、濱田立輝、小玉直樹、山村雅幸
- 学会等名
  電気学会C部門大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Rule-based generation of synthetic genetic circuits2022
- 著者名/発表者名
  Kiga Daisuke、Miyazaki Kazuteru、Yasuda Shoya、Hamada Ritsuki、Okuda Sota、Sekine Ryoji、Kodama Naoki、Yamamura Masayuki
- 学会等名
  14th International Workshop on Bio-Design Automation (IWBDA 2022)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Profit Sharing による方策の直接強化手法の提案2022
- 著者名/発表者名
  小玉直樹、宮崎和光、原田拓
- 学会等名
  第49回知能システムシンポジウム
- 関連する報告書
  2021 実施状況報告書
[学会発表] Proposal and Evaluation of Deep Profit Sharing Method in a Mixed Reward and Penalty Environment2021
- 著者名/発表者名
  Kazuteru Miyazaki
- 学会等名
  2021 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 状態遷移予測型Deep Q-Networkの提案2021
- 著者名/発表者名
  小玉直樹、宮崎和光、原田拓
- 学会等名
  計測自動制御学会システム・情報部門学術講演会2021
- 関連する報告書
  2021 実施状況報告書
[学会発表] 確率的報酬課題におけるプラセボ効果の強化学習によるモデル化2021
- 著者名/発表者名
  宮崎和光
- 学会等名
  計測自動制御学会システム・情報部門学術講演会2021
- 関連する報告書
  2021 実施状況報告書
[学会発表] 状態遷移予測型強化学習法の提案2021
- 著者名/発表者名
  小玉直樹、宮崎和光、原田拓
- 学会等名
  電気学会C部門大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 報酬と罰が混合する環境における深層経験強化型学習に関する一考察2021
- 著者名/発表者名
  宮崎和光
- 学会等名
  電気学会C部門大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 学位に付記する専攻分野の名称とディプロマ・ポリシーの整合性判定支援システムの性能改善2021
- 著者名/発表者名
  宮崎和光、吉田望、森利枝
- 学会等名
  電気学会システム/制御合同研究
- 関連する報告書
  2021 実施状況報告書
[学会発表] Evaluation of Character-Level CNNs using the NTCIR-13 MedWeb Task2021
- 著者名/発表者名
  Kazuteru Miyazaki、Masaaki Ida
- 学会等名
  The 22nd International Symposium on Advanced Intelligent Systems
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Character-level CNN の重みの摂動に関する一考察 - NTCIR-13 MedWeb タスクを題材として -2021
- 著者名/発表者名
  宮崎和光、井田正明
- 学会等名
  計測自動制御学会システム・情報部門学術講演会2021
- 関連する報告書
  2021 実施状況報告書
[学会発表] NTCIR-13 MedWebタスクを用いたCharacter-level CNNの性能評価2021
- 著者名/発表者名
  宮崎和光、井田正明
- 学会等名
  電気学会C部門大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] Proposal for selecting a cooperation partner in distributed control of traffic signals using deep reinforcement learning2021
- 著者名/発表者名
  Shinya Matsuta、Naoki Kodama、Taku Harada
- 学会等名
  Proceedings of the 8th IIAE International Conference on Intelligent Systems and Image Processing 2021
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[図書] 危機こそマネジメント改革の好機（第3部第3章「研究者養成としての大学院教育」を山口周が執筆）2022
- 著者名/発表者名
  川口昭彦、栗田佳代子、山口周、吉田塁、長谷川壽一（編集協力）、福田秀樹（編集協力）
- 総ページ数
  172
- 出版者
  株式会社ぎょうせい
- 関連する報告書
  2021 実施状況報告書

利益分配原理に基づく深層強化学習の革新的進化と実問題への応用に関する研究

研究代表者

宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Proposal and Evaluation of a Course-Classification-Support System Emphasizing Communication with the Sub-committees Within the Committee of Validation and Examination for Degrees2023

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Surface Hydroxyl-Ion Diffusion and Hierarchical Structure of Adsorbed Water on Hydrated Layered Double Hydroxides2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 学位に付記する専攻分野の名称とディプロマ・ポリシーの整合性に関する研究2022

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Traffic Signal Control System Using Deep Reinforcement Learning With Emphasis on Reinforcing Successful Experiences2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Modeling of placebo effect in stochastic reward tasks by reinforcement learning2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Home Energy Management Algorithm Based on Deep Reinforcement Learning Using Multistep Prediction2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Proposal and evaluation of deep exploitation-oriented learning under multiple reward environment2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] マルチエージェント環境下における強化学習を用いたネガティブツイートの抑制2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Effectiveness of Character-level CNN and its Examination of Perturbation for Weights2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Learning Thresholds to Select Cooperative Partners by Applying Deep Reinforcement Learning in Distributed Traffic Signal Control2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Distributed Traffic Signal Control with Fairness Using Deep Reinforcement Learning2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 強化学習を用いたネガティブツイートの抑制2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 経験強化型深層強化学習による Atari2600 シミュレーション2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 説明可能な深層強化学習法の提案2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層学習を利用したBioDOS にとって有用な論文の発見2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Rule-based generation of synthetic genetic circuits2022

宮崎和光独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)

[図書] 危機こそマネジメント改革の好機（第3部第3章「研究者養成としての大学院教育」を山口周が執筆）2022