2021 Fiscal Year Annual Research Report
深層強化学習を用いた土壌熱交換システムの最適運用・制御手法の構築とその検証
Project/Area Number |
19H02301
|
Research Institution | The University of Kitakyushu |
Principal Investigator |
白石 靖幸 北九州市立大学, 国際環境工学部, 教授 (50302633)
|
Co-Investigator(Kenkyū-buntansha) |
龍 有二 北九州市立大学, 国際環境工学部, 教授 (20191695)
長谷川 兼一 秋田県立大学, システム科学技術学部, 教授 (50293494)
永原 正章 北九州市立大学, 環境技術研究所, 教授 (90362582)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 強化学習 / DQN / 土壌熱交換 / 非定常CFD解析 / 空気質 / 省エネルギー |
Outline of Annual Research Achievements |
本研究では、土壌熱交換システム(地下ピット方式)を対象に省エネ効果の確保と結露発生の抑制を目指して、強化学習による最適制御則の構築を行ってきた。しかし、強化学習は学習の収束に膨大な試行回数を要するという問題があり、計算負荷を低減した非定常CFD解析を学習環境として用いたとして、通常、制御則を構築するのは困難である。このため、今年度は、本課題に対して、主に3つの解決策を提案し、それらの有効性を数値解析により検証した。一つ目の試みとして、環境側の簡易な予測モデルを作成し、その予測モデルに基づいて即時報酬を最大化するように行動を選択し、学習を進める手法を提案した。これにより、制御則の構築に要するエピソード数が10分の1程度に削減された。更に類似した手法として、計算負荷を低減した非定常CFD解析の結果を教師データとして、機械学習(主にランダムフォレスト)を用いてCFD解析を模倣する予測モデルを構築した。このモデルを強化学習の学習環境に用いることで、従来の解析手法と比較して大幅に計算時間を削減することが可能となった。教師データを作成する時間を除くと、計算時間の削減率は99%以上となった。最後に、学習の高速化や学習性能の向上を目指し、事前に学習したモデル(制御則)を新たな環境での学習に再利用する転移学習を導入した。これにより、高い制御性能を維持しつつ、エピソード数の削減が可能となった。特に、強化学習の収束性を高めるためには、転移元と転移先の類似度が重要であることが示唆された。 その他、これまでの主な研究成果である「夏季実測調査と非定常CFD 解析に基づいた地下ピット内空気環境の実態把握」や「方策ベース強化学習アルゴリズムであるPPO(Proximal Policy Optimization)を用いた運用制御」等の査読論文化を進めた。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Research Products
(12 results)