研究課題/領域番号 |
22K17969
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61040:ソフトコンピューティング関連
|
研究機関 | 大分大学 |
研究代表者 |
松木 俊貴 大分大学, 理工学部, 技術職員 (00915928)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2025年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | カオスベース強化学習 / リザバーコンピューティング / 深層強化学習 / リザバーネットワーク |
研究開始時の研究の概要 |
本研究では,学習システムが自身の内的なカオスダイナミクスによって環境内で探索活動を行い学習するカオスベース強化学習(CBRL)の学習性能の向上を目指す.CBRLでは探索が学習システム内部のカオスダイナミクスによって駆動されることから,探索活動そのものを学習適応の範疇に含みうることが期待される.しかし一方で,CBRLは現在のところ非常に簡単なタスクでしか学習に成功していない.そこで,近年盛んに研究され強力な学習性能が示されている深層強化学習の技術を導入することで,学習性能の向上をはかり,CBRLが適用可能なタスクのレベルや多様性を広げ,研究基盤を拡張することを目指す.
|
研究実績の概要 |
本研究の目的は,カオスベース強化学習(CBRL)に深層強化学習の技術を導入し学習性能を向上させることである。CBRLとはリザバーネットワーク(RN)などのような動的な学習システムが,自身の内的なカオスダイナミクスによって環境内で探索活動を行い学習する強化学習手法である。本研究では,CBRLは従来の乱数を用いて探索を行う強化学習と違い探索まで含めた学習が可能となるのではないかと期待している。 深層強化学習において学習性能を向上させるために用いられる強力な手法の一つに経験リプレイがある。これは,環境との相互作用によって得られた過去の経験を保存しておき,それらをサンプリングすることで学習する手法である。RNを用いた深層強化学習のアプローチの一つとして,学習のための計算処理を必要としないRNに入力を与え,その出力をリプレイメモリに保存することで時系列処理の学習を効率化する手法がある。本研究ではまず,この手法を用いてカオスベース強化学習と深層強化学習の融合を図りCBRLの性能向上を試みる。 強化学習において連続値行動を扱う場合の学習手法の一つとしてActor-Critic(AC)がある。ACでは,連続値行動を出力するActorと状態行動価値を出力するCriticとに分けてエージェントネットワークを構成し学習を行う。従来のCBRL研究においては探索方向のベクトルとしての乱数が必要なAC手法を用いて学習していたため,乱数を用いないCBRLにとって連続値行動出力の学習は本質的に難しかった。そこで,今年度はこれまでとは異なるAC手法であるTD3により課題の解決を試みた。TD3では,Actorの学習にCriticネットワークから伝わる勾配情報を用いるため,探索ベクトルを必要としない。この手法により,CBRLにおいても連続値行動の学習が可能になった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
RNの出力を保存する経験リプレイを導入したTD3によるタスクの学習が可能であることを示すため,時系列処理が必要な非線形制御タスクの学習を行う検証をおこなった。学習タスクとしてMuJoCoと呼ばれる物理エンジンにより作成されているベンチマークタスクをベースとして時系列処理が必要となるように改造したものを用いた。検証の結果,複数の非線形制御タスクがこのアプローチで学習可能であることが分かった。しかし,学習できないタスクもあり,特に,人型のモデルを歩行させるHumanoidと呼ばれるタスクのような比較的高次元な入出力を扱うタスクでは学習が困難であることも確認された。これは,RNが高次元入力タスクの学習を行う場合RNの次元を十分に大きくする必要があることが原因の一つであると考えられる。 そこで,RNを導入した深層強化学習において高次元の入出力タスクを学習可能にするためのネットワーク構成の検証を進めた。特に,高次元入力に対して並列に構成したRNを用いて学習を行う先行研究に着目し,これを導入したTD3の学習を試みたが,期待どおりの性能を引き出すことはできなかった。この課題を克服するため,並列リザバーの出力からネットワークの出力を生成するリードアウトと呼ばれる出力層の構造を工夫することにより性能改善を図ることができないか検討している。そのために,学習性能そのものに焦点を絞り,タスクをカオス時系列生成の教師あり学習に変更し並列RNの性能向上について現在研究を行っている。 今年度の研究により出ている結果についてまだ学会などで発表をしていないことや,当初予定していたCBRLの学習性能を引き出すことにまだ成功していないことから,進捗状況としてはやや遅れているとした。
|
今後の研究の推進方策 |
リザバーネットワーク(RN)が高次元入力に対してうまく学習を行うためのアプローチの一つにリザバーをパラレルに構成したネットワークを用いる手法がある。Pathakら(2018)ではこのような手法により,RNを用いてKuramoto-Sivashinsky方程式のような高次元のカオス力学系の予測モデルを学習させることに成功している。今年度課題として挙がった高次元入出力タスクの学習を実現させるため,この先行研究のネットワークに着目しこれを発展させる形で高次元入出力を扱うことのできるRN強化学習エージェントの性能向上を目指していく。この検証においては,まずは学習性能そのものに焦点を当てるため,先行研究と同様にカオス時系列生成の教師あり学習をタスクとして研究を進めている。 同時にTD3によるカオスベース強化学習についても,検証を進めていく。今年度は,MuJoCoなどのベンチマークタスクを学習させたことで,タスク部分がブラックボックス化してしまい,ネットワークダイナミクスについての詳細な検証を行うことが難しかった。そこで,次年度はゴールタスクのような簡単な環境を自作し,それを用いてカオスベース強化学習エージェントが持つダイナミクスについて詳細に明らかにしていくことを目指す。また,TD3以外の強化学習アルゴリズムのCBRLへの導入についても検証し,どのようなアルゴリズムがCBRLと親和性が高いかについても明らかにしていく。 今年度得られた結果についての学会発表などによる報告がまだであることから,研究結果を公表しフィードバックを得るために,論文を作成し国内外の会議においてディスカッションを行っていく。
|