Project/Area Number |
19K04448
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 21040:Control and system engineering-related
|
Research Institution | Tokyo Metropolitan College of Industrial Technology |
Principal Investigator |
福永 修一 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)
|
Project Period (FY) |
2019-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | システム同定 / 機械学習 / ロバスト統計 / 強化学習 |
Outline of Research at the Start |
本研究の目的は異常値が含まれる観測データから非線形システムをロバストかつ逐次的に同定するアルゴリズムを構築することである。異常値を取り除くための方法として、機械学習の分野で提案されたロバストな評価指標であるベータダイバージェンスを用いる。ペータダイバージェンスを最小化することにより導出するパラメータの逐次更新則は、異常値が含まれたデータに対して重みを小さくすることにより異常値に影響を受けない推定アルゴリズムとなる。
|
Outline of Annual Research Achievements |
本研究では観測に異常値が含まれるデータからシステムを推定するアルゴリズムを開発することが目的である.計画5年目にあたる2023年度は以下の3つの課題に取り組んだ. (1) 異常値が含まれるデータからシステムのパラメータを推定する際に,異常値の影響を受けて推定精度が劣化する問題がある.本研究では動的システムを表す基本的なモデルの1つであるARXモデルに対して,異常値が含まれるデータからパラメータを逐次的に精度良く推定する方法を提案した.パラメータの推定にロバストな指標であるベータダイバージェンスを用いることにより,異常値に対してロバストな逐次推定アルゴリズムを構築した. (2) 本研究ではシステム同定のための非線形モデルとしてポートハミルトン系に着目しており,これまでに提案をしたポートハミルトン系のための強化学習に対して新たにPolicy Gradient with Parameter-based Exploration (PGPE) を導入した方法を提案した.強化学習は確率的方策が用いられるが,制御入力に含まれるノイズがシステムの意図しない動作を引き起こす可能性がある.本研究ではPGPEを用いることにより制御入力にノイズが入らないで強化学習が行える方法を提案した. (3) 逆強化学習は目的のタスクにおいて最適な行動をとる熟練者の軌道から報酬関数を推定する方法である.最適な軌道を取得する際に熟練者に負担がかかるため,この問題を解決する軌道のスコアに基づく逆強化学習が提案された.しかしながら軌道にスコアを付与する際にセンサの異常や人為的ミスにより異常値が含まれる可能性がある.本研究ではベータダイバージェンスを用いることにより軌道のスコアに基づく逆強化学習をロバスト化する方法を提案した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2023年度は研究実績の概要で述べた3つの課題について取り組み,それぞれの課題に対して有効な方法を提案した.当初立てた論文執筆計画よりも遅れているため,進捗状況はやや遅れていると言える.2023年度の具体的な成果は以下の3つである. (1) ベータダイバージェンスを用いたARXモデルのロバスト逐次同定法は逐次最小二乗法に重みがついた更新則となっている.M推定では重み関数の設計が必要であるが,提案手法は重み関数がベータダイバージェンス最小化から自然に導出されるため設計する必要がない特徴がある. (2) PGPEを用いたポートハミルトン系の強化学習は方策パラメータが確率分布に従って決められることにより確率的探索を実現する方法である.PGPEはパラメータの推定値の分散が小さいため,通常の方策勾配法を用いた従来手法よりも学習が高速であることが期待でき,数値例により従来手法よりも提案手法の学習が高速であることを示した. (3) 軌道のスコアに基づく逆強化学習は最小二乗法により報酬関数のパラメータを推定する.提案手法ではパラメータを重みつき最小二乗法により推定し,重み関数はベータダイバージェンス最小化により決定する.重みつき最小二乗法により異常値の影響を抑えた推定を行うことが可能となった.
|
Strategy for Future Research Activity |
2024年度は2023年度に得られた3つの成果をさらに発展させる方向で実施する予定である. (1) カルマンフィルタはノイズの含まれた観測データからシステムの状態を推定する方法である.逐次最小二乗法はカルマンフィルタの特別な場合であると解釈することができる.次年度はベータダイバージェンスを用いた逐次ロバスト同定アルゴリズムをカルマンフィルタの定式化に拡張し,状態推定問題に応用できる方法を提案する. (2) PGPEを用いたポートハミルトン系の強化学習は勾配法を用いており,ステップサイズパラメータの値を適切に決めることが難しい.勾配法におけるステップサイズパラメータを決めることなく学習を行うためにEMアルゴリズムを用いた方法が提案されている.次年度はポートハミルトン系の強化学習に対してEMアルゴリズムを用いた方法を導入し,ステップサイズパラメータを決めることなく学習が行える方法を提案する. (3) 軌道のスコアに基づく逆強化学習は非線形な報酬関数を推定するためにカーネル法を用いている.カーネル法により表現された報酬関数を計算する上で高次元であると計算時間がかかる.この問題を解決するために報酬関数のパラメータをスパース推定する方法を提案し,計算時間の削減を実現する.
|