深層強化学習技術の導入によるカオスベース強化学習の性能向上

Research Project

Project/Area Number	22K17969
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61040:Soft computing-related
Research Institution	防衛大学校(総合教育学群、人文社会科学群、応用科学群、電気情報学群及びシステム工学群) (2023) Oita University (2022)
Principal Investigator	松木俊貴防衛大学校(総合教育学群、人文社会科学群、応用科学群、電気情報学群及びシステム工学群), サイバー・情報工学科, 助教 (00915928)
Project Period (FY)	2022-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000) Fiscal Year 2025: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000) Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Keywords	カオスベース強化学習 / リザバーコンピューティング / 深層強化学習 / 深層学習 / 強化学習 / リザバーネットワーク
Outline of Research at the Start	本研究では，学習システムが自身の内的なカオスダイナミクスによって環境内で探索活動を行い学習するカオスベース強化学習(CBRL)の学習性能の向上を目指す.CBRLでは探索が学習システム内部のカオスダイナミクスによって駆動されることから，探索活動そのものを学習適応の範疇に含みうることが期待される.しかし一方で，CBRLは現在のところ非常に簡単なタスクでしか学習に成功していない.そこで，近年盛んに研究され強力な学習性能が示されている深層強化学習の技術を導入することで，学習性能の向上をはかり，CBRLが適用可能なタスクのレベルや多様性を広げ，研究基盤を拡張することを目指す.
Outline of Annual Research Achievements	本研究はカオスベース強化学習(CBRL)に深層強化学習の技術を導入し学習性能を向上させることを目的としている。CBRLは，動的な学習システムが自身の内的カオスダイナミクスに基づいて探索活動を行う強化学習手法である。乱数を用いて探索を行う従来の強化学習と異なり，CBRLエージェントは学習の進捗により自律的に探索を停止したり，環境変化に対して自律的に探索を再開するなどの特徴をもつ。またCBRLのエージェントは探索行動まで含めた学習が可能であることが期待される。しかし一方で，これまでの研究ではCBRLの学習性能は十分とはいえず，未だ単純化された簡単なタスクでの結果しか得られていない。そこで本研究では，カオスベース強化学習と深層強化学習の技術の融合を図りCBRLの性能向上を試みている。連続値行動を扱うことのできる強化学習手法の一つにActor-Critic (AC)がある。ACではエージェントのモデルを，行動を決定するActorと状態行動価値を推定するCriticに分けて構成し学習を行う。初年度の研究では，これまでCBRLに用いられてきたものとは異なるAC手法であり，高い学習性能を発揮する事が報告されているTD3アルゴリズムによってCBRLエージェントが学習可能であることが示唆された。そこで今年度は，シンプルなタスクを用いて，TD3を導入したCBRLエージェントの学習の詳細な解析を行った。その結果，TD3がCBRLの学習アルゴリズムとして利用可能である事や，探索と活用の切り替えの柔軟性にとって適切なカオス性の強さの範囲が存在する事などが明らかになった。また，カオス性が強すぎる場合に柔軟性が損なわれる原因は，カオス性を打ち消すために特定の重み値が肥大化する事に原因があることを明かにすることができた。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 深層強化学習において連続値行動出力を扱うことのできる手法のうち高い性能を発揮できることが報告されているものの一つであるTD3アルゴリズムが，カオスベース強化学習(CBRL)の学習則として導入可能であるかを検証するためシンプルなゴール到達タスクにより検証を行った。検証の結果，エージェントはタスクの学習に成功しTD3はCBRLの学習則として有効であることが確認された。また，エージェントのモデルとして用いているリザバーネットワーク(RN)のカオス性と学習能力との関係を調べ，カオスによる探索を行う状態と学習した振る舞いを活用する状態との切り替えの柔軟性にとって,適切なカオス性の強さの範囲が存在することが明らかになった。また，モデルのカオス性が強すぎる場合に探索と活用の柔軟性が損なわれる原因を調査し，その原因がカオス性の強いリザバー層からの入力を打ち消すために，重み値が肥大化することにあることを突き止めた。また，昨年度の結果では，学習の可否や学習中のネットワーク内の様子に焦点をおくためシンプルなタスクを用いて検証を行った。そのため今後はより複雑なタスクの学習について検証し，目的であるCBRLエージェントの学習性能向上を目指していく。なお，研究成果についての学会などでの発表が遅れていることや，執筆中の論文がまだ出版まで至っていないことなどから，進捗状況としてはやや遅れているとした。
Strategy for Future Research Activity	前年度の研究では，学習可能性や学習の様子の調査に焦点を絞るためシンプルなタスクを用いて検証を行った。今後はより複雑なタスクの学習について検証し，カオスベース強化学習(CBRL)の性能向上を目指していく。また，ここまでの研究においてCBRLに導入し有効性を確認したTD3アルゴリズムでは，過去のエージェントが獲得した経験を蓄積したリプレイバッファからランダムサンプリングしたデータに基づいて学習を行う経験リプレイが用いられる。ランダムサンプリングは乱数による探索のような作用をもたらすため，CBRLの方向性と合致しない。また，環境変化に対し自律的に探索を再開し再学習可能であるという特性をもつCBRLエージェントの特徴を活かす上でも過去の長期にわたる記憶をサンプルして学習する経験リプレイはマイナスに働く。このような背景から今年度の研究では経験リプレイのランダム性を廃し制限した形でTD3を用いたが，このことは学習性能の低下につながるという問題も生じさせる。そこで次年度は，経験リプレイ手法を用いない深層強化学習手法を導入する検証についても行っていく予定である。また，乱数を用いて探索を行う従来の探索アルゴリズムとモデルのカオスダイナミクスにより探索を行う手法を組み合わせた場合の検証も行っていく。今年度の研究により，カオスダイナミクスによる探索は乱数による探索よりも環境変化に対する再学習の柔軟性が高いことを示唆する結果が得られた。そこで，次年度はこのCBRLの特性を従来の深層強化学習アルゴリズムに導入することで，従来よりも環境変化に強い学習手法を構築することができないかについても検証を進めていく。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report