2020 Fiscal Year Annual Research Report
深層強化学習を用いた土壌熱交換システムの最適運用・制御手法の構築とその検証
Project/Area Number |
19H02301
|
Research Institution | The University of Kitakyushu |
Principal Investigator |
白石 靖幸 北九州市立大学, 国際環境工学部, 教授 (50302633)
|
Co-Investigator(Kenkyū-buntansha) |
龍 有二 北九州市立大学, 国際環境工学部, 教授 (20191695)
長谷川 兼一 秋田県立大学, システム科学技術学部, 教授 (50293494)
永原 正章 北九州市立大学, 環境技術研究所, 教授 (90362582)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 強化学習 / DQN / 土壌熱交換 / 非定常CFD解析 / 空気質 / 省エネルギー |
Outline of Annual Research Achievements |
2019年度に引き続き、九州及び東北地域の実在地下ピットを対象とした土壌熱交換システムの非定常CFD解析をベースとしたシミュレータを構築すると共に、計算高速化や安定化のため一部改良を加えた。九州地域のモデルに関しては、予冷・予熱量等の実測データとの比較分析を継続的に行い、十分な予測精度を有することを確認した。 開発したシミュレータ(東北・秋田市の実在モデルを使用)を用いて、九州及び東北地域の2都市を対象として年間解析を実施し、気象条件の違いが土壌熱交換システムの予冷・予熱性能等に及ぼす影響を明らかにした。主な結果として、北九州市において、6~8月にかけて流出口の相対湿度が頻繁に100%近くを推移していたことから、実測同様にシステム内での結露発生が懸念された。北九州市では夏季の温熱、秋田市では冬季の冷熱が導入外気へ影響し、外調機処理熱量の削減量は北九州市の冬季で9.3GJ、秋田市の夏季で10.4GJとそれぞれ最大となった。 強化学習を用いた土壌熱交換システムの最適制御則構築の試みとして、昨年度作成したストレート型の簡易な土壌熱交換システムに加え、東北・秋田市の回廊型の実在モデルも対象に、Q-Learning,Deep Q-Network(DQN)に加え、PPO(Proximal Policy Optimization)によるケーススタディを実施した。結果として、年間処理熱量は、スケジュールベースの運用と比較して、全てのアルゴリズムで概ね同程度の結果となった。一方、結露性状に関しては、PPOが最も高い抑制効果を示し、高い学習効果を確認することができた。 九州地域における1件の土壌熱交換システムを対象に、夏季実測調査を実施し、結露性状や予冷・予熱量等のデータ収集、分析を行った。ただし、コロナ禍のため、物件数や測定期間は最小限となった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コロナ禍のため、実測対象物件数や測定期間がかなり制限されたが、解析の方は予定以上に進展している。特に、解析対象建物や検討対象とした強化学習アルゴリズムは当初予定していた以上に拡充されており、解析結果の信頼性向上に寄与している。また、測定対象物件も九州及び東北地域のみならず、関東地方の物件についても将来的には検証が可能な状況にある。
|
Strategy for Future Research Activity |
強化学習の環境は現実空間と同等の再現性を持たせる必要があるため、予測精度の観点からシミュレータとしての非定常CFD解析が理想的である。しかし、強化学習は学習の収束に要する試行回数が膨大となるため、本研究にて提案した非連成解析を用いたとしても、計算に膨大な時間を要する。そこで、非連成解析に代わる新たな予測手法として、非連成解析結果を教師データとして用いる機械学習の導入を試みる。具体的には、機械学習の代表的なアルゴリズムであるランダムフォレストや決定木等を用いて、CFD の環境を模倣する。 強化学習のアルゴリズムとして、昨年度検討を行ったDeep Q-Network(DQN)、PPO(Proximal Policy Optimization)等に加え、学習スピードを高める新たなアルゴリズムの開発を行う。即ち、強化学習の報酬の設計にあたっては、実際に行動した結果の評価のみならず、反事実の行動も予測・評価し、双方を比較することで、強化学習のAgentが選択した行動を相対的に評価する手法を構築する。 2020-2021年度は、北部九州に導入された土壌熱交換システムの予冷・予熱量の把握やシステム内の結露性状や空気質汚染の実態解明のため、継続的に実測調査を行っている。更に実測調査が行えていない東北地域に関しては、同地域に実際に導入されたシステムを対象に非連成解析を実施し、その性能検証を行っている。本年度は測定・解析データの統計分析を実施することによって、強化学習の報酬設計に活用可能なデータベースの作成を試みる。 3年間の研究成果を踏まえ、研究プロジェクトの総括を行うと共に今後の課題を整理する。研究成果に関しては、国内外の学会等で多数発表すると共に、査読付き論文にも積極的に投稿する。
|
Research Products
(15 results)