ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

Research Project

Project/Area Number	19K04448
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 21040:Control and system engineering-related
Research Institution	Tokyo Metropolitan College of Industrial Technology
Principal Investigator	福永修一東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)
Project Period (FY)	2019-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000) Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2019: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Keywords	システム同定 / 機械学習 / ロバスト統計 / 強化学習
Outline of Research at the Start	本研究の目的は異常値が含まれる観測データから非線形システムをロバストかつ逐次的に同定するアルゴリズムを構築することである。異常値を取り除くための方法として、機械学習の分野で提案されたロバストな評価指標であるベータダイバージェンスを用いる。ペータダイバージェンスを最小化することにより導出するパラメータの逐次更新則は、異常値が含まれたデータに対して重みを小さくすることにより異常値に影響を受けない推定アルゴリズムとなる。
Outline of Annual Research Achievements	本研究では観測に異常値が含まれるデータからシステムを推定するアルゴリズムを開発することが目的である．計画5年目にあたる2023年度は以下の3つの課題に取り組んだ． (1) 異常値が含まれるデータからシステムのパラメータを推定する際に，異常値の影響を受けて推定精度が劣化する問題がある．本研究では動的システムを表す基本的なモデルの1つであるARXモデルに対して，異常値が含まれるデータからパラメータを逐次的に精度良く推定する方法を提案した．パラメータの推定にロバストな指標であるベータダイバージェンスを用いることにより，異常値に対してロバストな逐次推定アルゴリズムを構築した． (2) 本研究ではシステム同定のための非線形モデルとしてポートハミルトン系に着目しており，これまでに提案をしたポートハミルトン系のための強化学習に対して新たにPolicy Gradient with Parameter-based Exploration (PGPE) を導入した方法を提案した．強化学習は確率的方策が用いられるが，制御入力に含まれるノイズがシステムの意図しない動作を引き起こす可能性がある．本研究ではPGPEを用いることにより制御入力にノイズが入らないで強化学習が行える方法を提案した． (3) 逆強化学習は目的のタスクにおいて最適な行動をとる熟練者の軌道から報酬関数を推定する方法である．最適な軌道を取得する際に熟練者に負担がかかるため，この問題を解決する軌道のスコアに基づく逆強化学習が提案された．しかしながら軌道にスコアを付与する際にセンサの異常や人為的ミスにより異常値が含まれる可能性がある．本研究ではベータダイバージェンスを用いることにより軌道のスコアに基づく逆強化学習をロバスト化する方法を提案した．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 2023年度は研究実績の概要で述べた3つの課題について取り組み，それぞれの課題に対して有効な方法を提案した．当初立てた論文執筆計画よりも遅れているため，進捗状況はやや遅れていると言える．2023年度の具体的な成果は以下の3つである． (1) ベータダイバージェンスを用いたARXモデルのロバスト逐次同定法は逐次最小二乗法に重みがついた更新則となっている．M推定では重み関数の設計が必要であるが，提案手法は重み関数がベータダイバージェンス最小化から自然に導出されるため設計する必要がない特徴がある． (2) PGPEを用いたポートハミルトン系の強化学習は方策パラメータが確率分布に従って決められることにより確率的探索を実現する方法である．PGPEはパラメータの推定値の分散が小さいため，通常の方策勾配法を用いた従来手法よりも学習が高速であることが期待でき，数値例により従来手法よりも提案手法の学習が高速であることを示した． (3) 軌道のスコアに基づく逆強化学習は最小二乗法により報酬関数のパラメータを推定する．提案手法ではパラメータを重みつき最小二乗法により推定し，重み関数はベータダイバージェンス最小化により決定する．重みつき最小二乗法により異常値の影響を抑えた推定を行うことが可能となった．
Strategy for Future Research Activity	2024年度は2023年度に得られた3つの成果をさらに発展させる方向で実施する予定である． (1) カルマンフィルタはノイズの含まれた観測データからシステムの状態を推定する方法である．逐次最小二乗法はカルマンフィルタの特別な場合であると解釈することができる．次年度はベータダイバージェンスを用いた逐次ロバスト同定アルゴリズムをカルマンフィルタの定式化に拡張し，状態推定問題に応用できる方法を提案する． (2) PGPEを用いたポートハミルトン系の強化学習は勾配法を用いており，ステップサイズパラメータの値を適切に決めることが難しい．勾配法におけるステップサイズパラメータを決めることなく学習を行うためにEMアルゴリズムを用いた方法が提案されている．次年度はポートハミルトン系の強化学習に対してEMアルゴリズムを用いた方法を導入し，ステップサイズパラメータを決めることなく学習が行える方法を提案する． (3) 軌道のスコアに基づく逆強化学習は非線形な報酬関数を推定するためにカーネル法を用いている．カーネル法により表現された報酬関数を計算する上で高次元であると計算時間がかかる．この問題を解決するために報酬関数のパラメータをスパース推定する方法を提案し，計算時間の削減を実現する．

Report

(5 results)

Research Products
(20 results)

All 2023 2022 2021 2020 2019

All Journal Article (5 results) (of which Peer Reviewed: 5 results, Open Access: 2 results) Presentation (15 results) (of which Invited: 1 results)

[Journal Article] Robust Recursive Identification of ARX Models Using Beta Divergence2023
- Author(s)
  Shuichi Fukunaga
- Journal Title
  
  IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
  
  Volume: E106.A Issue: 12 Pages: 1580-1584
- DOI
  10.1587/transfun.2023EAL2011
- ISSN
  0916-8508, 1745-1337
- Year and Date
  2023-12-01
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Policy Gradient with Parameter-Based Exploration for Port-Hamiltonian Systems2023
- Author(s)
  小久保燎太，福永修一
- Journal Title
  
  電子情報通信学会論文誌D 情報・システム
  
  Volume: J106-D Issue: 12 Pages: 492-500
- DOI
  10.14923/transinfj.2022JDP7053
- ISSN
  1880-4535, 1881-0225
- Year and Date
  2023-12-01
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] Acceleration of Reinforcement Learning for Port-Hamiltonian Systems Using Natural Gradient2023
- Author(s)
  福永修一，岩本有生
- Journal Title
  
  Transactions of the Society of Instrument and Control Engineers
  
  Volume: 59 Issue: 2 Pages: 70-76
- DOI
  10.9746/sicetr.59.70
- NAID
  130007954263
- ISSN
  0453-4654, 1883-8189
- Related Report
  2022 Research-status Report
- Peer Reviewed
[Journal Article] Proposal of Deterministic Policy Gradient Method for Port-Hamiltonian Systems Using Eligibility Trace and Verification by Numerical Experiment2023
- Author(s)
  福永修一，小久保燎太
- Journal Title
  
  Transactions of the Society of Instrument and Control Engineers
  
  Volume: 59 Issue: 4 Pages: 232-234
- DOI
  10.9746/sicetr.59.232
- ISSN
  0453-4654, 1883-8189
- Related Report
  2022 Research-status Report
- Peer Reviewed
[Journal Article] Robust Privacy Preserving Linear Regression Using Beta-Divergence2022
- Author(s)
  竹下虎太朗，福永修一，田中覚，黄緒平
- Journal Title
  
  電子電子情報通信学会論文誌A 基礎・境界
  
  Volume: J105-A Issue: 6 Pages: 68-80
- DOI
  10.14923/transfunj.2021JAP1023
- ISSN
  1881-0195
- Year and Date
  2022-06-01
- Related Report
  2021 Research-status Report
- Peer Reviewed / Open Access
[Presentation] リスク関数を用いたプライバシ保護安全強化学習2023
- Author(s)
  遠藤拓斗，福永修一
- Organizer
  第146回数理モデル化と問題解決研究発表会
- Related Report
  2023 Research-status Report
[Presentation] ベータダイバージェンスを用いた軌道のスコアに基づくカーネル逆強化学習のロバスト化2023
- Author(s)
  江尻尚馬，福永修一
- Organizer
  第66回自動制御連合講演会
- Related Report
  2023 Research-status Report
[Presentation] ベータダイバージェンスを用いたポートハミルトン系のためのロバスト自然方策勾配強化学習法2022
- Author(s)
  福永修一，小久保燎太
- Organizer
  第65回自動制御連合講演会
- Related Report
  2022 Research-status Report
[Presentation] ポートハミルトン系のための決定論的方策勾配強化学習法2022
- Author(s)
  福永修一，小久保燎太
- Organizer
  第9回計測自動制御学会制御部門マルチシンポジウム
- Related Report
  2021 Research-status Report
[Presentation] ベータダイバージェンスを用いたロバスト自然方策勾配法2022
- Author(s)
  小久保燎太，福永修一
- Organizer
  電子情報通信学会情報論的学習理論と機械学習研究会
- Related Report
  2021 Research-status Report
[Presentation] ポートハミルトン系のための陰的自然方策勾配強化学習法2021
- Author(s)
  福永修一，岩本有生
- Organizer
  第64回自動制御連合講演会
- Related Report
  2021 Research-status Report
[Presentation] 外挿機能を有する関数近似器2021
- Author(s)
  福永修一
- Organizer
  第8回制御部門マルチシンポジウム
- Related Report
  2020 Research-status Report
[Presentation] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト逐次線形回帰2021
- Author(s)
  竹下虎太朗，福永修一
- Organizer
  2021年電子情報通信学会総合大会情報・システムソサイエティ特別企画ジュニア＆学生ポスターセッション
- Related Report
  2020 Research-status Report
[Presentation] ガウス過程回帰の基礎と状態推定への応用2020
- Author(s)
  福永修一
- Organizer
  第63回自動制御連合講演会 SICE企画セッション適応学習制御講義会
- Related Report
  2020 Research-status Report
- Invited
[Presentation] ロバストカーネル逐次最小二乗法における応答曲面法を用いた効率的なデータ取得2020
- Author(s)
  福永修一，和田靖広
- Organizer
  第63回自動制御連合講演会
- Related Report
  2020 Research-status Report
[Presentation] 自然勾配を用いたポートハミルトン系のための強化学習の高速化2020
- Author(s)
  福永修一，岩本有生
- Organizer
  第63回自動制御連合講演会
- Related Report
  2020 Research-status Report
[Presentation] システムの物理的性質を利用した強化学習の高速化2020
- Author(s)
  岩本有生，福永修一
- Organizer
  第23回情報論的学習理論ワークショップ
- Related Report
  2020 Research-status Report
[Presentation] ベータダイバージェンスを用いたロバストなカーネル逐次最小二乗法2020
- Author(s)
  福永修一，和田靖広
- Organizer
  第7回制御部門マルチシンポジウム
- Related Report
  2019 Research-status Report
[Presentation] ガウス過程回帰に基づくリスク鋭敏型粒子フィルタ2019
- Author(s)
  福永修一
- Organizer
  第63回システム制御情報学会研究発表講演会
- Related Report
  2019 Research-status Report
[Presentation] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト線形回帰2019
- Author(s)
  竹下虎太朗，福永修一，田中覚，黄緒平
- Organizer
  第22回情報論的学習理論ワークショップ
- Related Report
  2019 Research-status Report

ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

Principal Investigator

福永 修一 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)

¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Robust Recursive Identification of ARX Models Using Beta Divergence2023

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Policy Gradient with Parameter-Based Exploration for Port-Hamiltonian Systems2023

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Acceleration of Reinforcement Learning for Port-Hamiltonian Systems Using Natural Gradient2023

Author(s)

Journal Title

DOI

NAID

ISSN

Related Report

[Journal Article] Proposal of Deterministic Policy Gradient Method for Port-Hamiltonian Systems Using Eligibility Trace and Verification by Numerical Experiment2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] Robust Privacy Preserving Linear Regression Using Beta-Divergence2022

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Presentation] リスク関数を用いたプライバシ保護安全強化学習2023

Author(s)

Organizer

Related Report

[Presentation] ベータダイバージェンスを用いた軌道のスコアに基づくカーネル逆強化学習のロバスト化2023

Author(s)

Organizer

Related Report

[Presentation] ベータダイバージェンスを用いたポートハミルトン系のためのロバスト自然方策勾配強化学習法2022

Author(s)

Organizer

Related Report

[Presentation] ポートハミルトン系のための決定論的方策勾配強化学習法2022

Author(s)

Organizer

Related Report

[Presentation] ベータダイバージェンスを用いたロバスト自然方策勾配法2022

Author(s)

Organizer

Related Report

[Presentation] ポートハミルトン系のための陰的自然方策勾配強化学習法2021

Author(s)

Organizer

Related Report

[Presentation] 外挿機能を有する関数近似器2021

Author(s)

Organizer

Related Report

[Presentation] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト逐次線形回帰2021

Author(s)

Organizer

Related Report

[Presentation] ガウス過程回帰の基礎と状態推定への応用2020

Author(s)

Organizer

Related Report

[Presentation] ロバストカーネル逐次最小二乗法における応答曲面法を用いた効率的なデータ取得2020

Author(s)

福永修一東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)