ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

研究課題

研究課題/領域番号	19K04448
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分21040:制御およびシステム工学関連
研究機関	東京都立産業技術高等専門学校
研究代表者	福永修一東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)
研究期間 (年度)	2019-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2019年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワード	システム同定 / 機械学習 / ロバスト統計 / 強化学習
研究開始時の研究の概要	本研究の目的は異常値が含まれる観測データから非線形システムをロバストかつ逐次的に同定するアルゴリズムを構築することである。異常値を取り除くための方法として、機械学習の分野で提案されたロバストな評価指標であるベータダイバージェンスを用いる。ペータダイバージェンスを最小化することにより導出するパラメータの逐次更新則は、異常値が含まれたデータに対して重みを小さくすることにより異常値に影響を受けない推定アルゴリズムとなる。
研究実績の概要	本研究では観測に異常値が含まれるデータからシステムを推定するアルゴリズムを開発することが目的である．計画5年目にあたる2023年度は以下の3つの課題に取り組んだ． (1) 異常値が含まれるデータからシステムのパラメータを推定する際に，異常値の影響を受けて推定精度が劣化する問題がある．本研究では動的システムを表す基本的なモデルの1つであるARXモデルに対して，異常値が含まれるデータからパラメータを逐次的に精度良く推定する方法を提案した．パラメータの推定にロバストな指標であるベータダイバージェンスを用いることにより，異常値に対してロバストな逐次推定アルゴリズムを構築した． (2) 本研究ではシステム同定のための非線形モデルとしてポートハミルトン系に着目しており，これまでに提案をしたポートハミルトン系のための強化学習に対して新たにPolicy Gradient with Parameter-based Exploration (PGPE) を導入した方法を提案した．強化学習は確率的方策が用いられるが，制御入力に含まれるノイズがシステムの意図しない動作を引き起こす可能性がある．本研究ではPGPEを用いることにより制御入力にノイズが入らないで強化学習が行える方法を提案した． (3) 逆強化学習は目的のタスクにおいて最適な行動をとる熟練者の軌道から報酬関数を推定する方法である．最適な軌道を取得する際に熟練者に負担がかかるため，この問題を解決する軌道のスコアに基づく逆強化学習が提案された．しかしながら軌道にスコアを付与する際にセンサの異常や人為的ミスにより異常値が含まれる可能性がある．本研究ではベータダイバージェンスを用いることにより軌道のスコアに基づく逆強化学習をロバスト化する方法を提案した．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由 2023年度は研究実績の概要で述べた3つの課題について取り組み，それぞれの課題に対して有効な方法を提案した．当初立てた論文執筆計画よりも遅れているため，進捗状況はやや遅れていると言える．2023年度の具体的な成果は以下の3つである． (1) ベータダイバージェンスを用いたARXモデルのロバスト逐次同定法は逐次最小二乗法に重みがついた更新則となっている．M推定では重み関数の設計が必要であるが，提案手法は重み関数がベータダイバージェンス最小化から自然に導出されるため設計する必要がない特徴がある． (2) PGPEを用いたポートハミルトン系の強化学習は方策パラメータが確率分布に従って決められることにより確率的探索を実現する方法である．PGPEはパラメータの推定値の分散が小さいため，通常の方策勾配法を用いた従来手法よりも学習が高速であることが期待でき，数値例により従来手法よりも提案手法の学習が高速であることを示した． (3) 軌道のスコアに基づく逆強化学習は最小二乗法により報酬関数のパラメータを推定する．提案手法ではパラメータを重みつき最小二乗法により推定し，重み関数はベータダイバージェンス最小化により決定する．重みつき最小二乗法により異常値の影響を抑えた推定を行うことが可能となった．
今後の研究の推進方策	2024年度は2023年度に得られた3つの成果をさらに発展させる方向で実施する予定である． (1) カルマンフィルタはノイズの含まれた観測データからシステムの状態を推定する方法である．逐次最小二乗法はカルマンフィルタの特別な場合であると解釈することができる．次年度はベータダイバージェンスを用いた逐次ロバスト同定アルゴリズムをカルマンフィルタの定式化に拡張し，状態推定問題に応用できる方法を提案する． (2) PGPEを用いたポートハミルトン系の強化学習は勾配法を用いており，ステップサイズパラメータの値を適切に決めることが難しい．勾配法におけるステップサイズパラメータを決めることなく学習を行うためにEMアルゴリズムを用いた方法が提案されている．次年度はポートハミルトン系の強化学習に対してEMアルゴリズムを用いた方法を導入し，ステップサイズパラメータを決めることなく学習が行える方法を提案する． (3) 軌道のスコアに基づく逆強化学習は非線形な報酬関数を推定するためにカーネル法を用いている．カーネル法により表現された報酬関数を計算する上で高次元であると計算時間がかかる．この問題を解決するために報酬関数のパラメータをスパース推定する方法を提案し，計算時間の削減を実現する．

報告書

(5件)

研究成果
(20件)

すべて 2023 2022 2021 2020 2019

すべて雑誌論文 (5件) (うち査読あり 5件、オープンアクセス 2件) 学会発表 (15件) (うち招待講演 1件)

[雑誌論文] Robust Recursive Identification of ARX Models Using Beta Divergence2023
- 著者名/発表者名
  Shuichi Fukunaga
- 雑誌名
  
  IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
  
  巻: E106.A 号: 12 ページ: 1580-1584
- DOI
  10.1587/transfun.2023EAL2011
- ISSN
  0916-8508, 1745-1337
- 年月日
  2023-12-01
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] ポートハミルトン系のためのPolicy Gradient with Parameter-based Exploration2023
- 著者名/発表者名
  小久保燎太，福永修一
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J106-D 号: 12 ページ: 492-500
- DOI
  10.14923/transinfj.2022JDP7053
- ISSN
  1880-4535, 1881-0225
- 年月日
  2023-12-01
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] 自然勾配を用いたポートハミルトン系のための強化学習の高速化2023
- 著者名/発表者名
  福永修一，岩本有生
- 雑誌名
  
  計測自動制御学会論文集
  
  巻: 59 号: 2 ページ: 70-76
- DOI
  10.9746/sicetr.59.70
- NAID
  130007954263
- ISSN
  0453-4654, 1883-8189
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] 適格度トレースを用いたポートハミルトン系のための決定論的方策勾配法の提案と数値実験による検証2023
- 著者名/発表者名
  福永修一，小久保燎太
- 雑誌名
  
  計測自動制御学会論文集
  
  巻: 59 号: 4 ページ: 232-234
- DOI
  10.9746/sicetr.59.232
- ISSN
  0453-4654, 1883-8189
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] プライバシ保護機能をもつベータダイバージェンスを用いたロバスト線形回帰2022
- 著者名/発表者名
  竹下虎太朗，福永修一，田中覚，黄緒平
- 雑誌名
  
  電子電子情報通信学会論文誌A 基礎・境界
  
  巻: J105-A 号: 6 ページ: 68-80
- DOI
  10.14923/transfunj.2021JAP1023
- ISSN
  1881-0195
- 年月日
  2022-06-01
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] リスク関数を用いたプライバシ保護安全強化学習2023
- 著者名/発表者名
  遠藤拓斗，福永修一
- 学会等名
  第146回数理モデル化と問題解決研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] ベータダイバージェンスを用いた軌道のスコアに基づくカーネル逆強化学習のロバスト化2023
- 著者名/発表者名
  江尻尚馬，福永修一
- 学会等名
  第66回自動制御連合講演会
- 関連する報告書
  2023 実施状況報告書
[学会発表] ベータダイバージェンスを用いたポートハミルトン系のためのロバスト自然方策勾配強化学習法2022
- 著者名/発表者名
  福永修一，小久保燎太
- 学会等名
  第65回自動制御連合講演会
- 関連する報告書
  2022 実施状況報告書
[学会発表] ポートハミルトン系のための決定論的方策勾配強化学習法2022
- 著者名/発表者名
  福永修一，小久保燎太
- 学会等名
  第9回計測自動制御学会制御部門マルチシンポジウム
- 関連する報告書
  2021 実施状況報告書
[学会発表] ベータダイバージェンスを用いたロバスト自然方策勾配法2022
- 著者名/発表者名
  小久保燎太，福永修一
- 学会等名
  電子情報通信学会情報論的学習理論と機械学習研究会
- 関連する報告書
  2021 実施状況報告書
[学会発表] ポートハミルトン系のための陰的自然方策勾配強化学習法2021
- 著者名/発表者名
  福永修一，岩本有生
- 学会等名
  第64回自動制御連合講演会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 外挿機能を有する関数近似器2021
- 著者名/発表者名
  福永修一
- 学会等名
  第8回制御部門マルチシンポジウム
- 関連する報告書
  2020 実施状況報告書
[学会発表] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト逐次線形回帰2021
- 著者名/発表者名
  竹下虎太朗，福永修一
- 学会等名
  2021年電子情報通信学会総合大会情報・システムソサイエティ特別企画ジュニア＆学生ポスターセッション
- 関連する報告書
  2020 実施状況報告書
[学会発表] ガウス過程回帰の基礎と状態推定への応用2020
- 著者名/発表者名
  福永修一
- 学会等名
  第63回自動制御連合講演会 SICE企画セッション適応学習制御講義会
- 関連する報告書
  2020 実施状況報告書
- 招待講演
[学会発表] ロバストカーネル逐次最小二乗法における応答曲面法を用いた効率的なデータ取得2020
- 著者名/発表者名
  福永修一，和田靖広
- 学会等名
  第63回自動制御連合講演会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 自然勾配を用いたポートハミルトン系のための強化学習の高速化2020
- 著者名/発表者名
  福永修一，岩本有生
- 学会等名
  第63回自動制御連合講演会
- 関連する報告書
  2020 実施状況報告書
[学会発表] システムの物理的性質を利用した強化学習の高速化2020
- 著者名/発表者名
  岩本有生，福永修一
- 学会等名
  第23回情報論的学習理論ワークショップ
- 関連する報告書
  2020 実施状況報告書
[学会発表] ベータダイバージェンスを用いたロバストなカーネル逐次最小二乗法2020
- 著者名/発表者名
  福永修一，和田靖広
- 学会等名
  第7回制御部門マルチシンポジウム
- 関連する報告書
  2019 実施状況報告書
[学会発表] ガウス過程回帰に基づくリスク鋭敏型粒子フィルタ2019
- 著者名/発表者名
  福永修一
- 学会等名
  第63回システム制御情報学会研究発表講演会
- 関連する報告書
  2019 実施状況報告書
[学会発表] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト線形回帰2019
- 著者名/発表者名
  竹下虎太朗，福永修一，田中覚，黄緒平
- 学会等名
  第22回情報論的学習理論ワークショップ
- 関連する報告書
  2019 実施状況報告書

ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

研究代表者

福永 修一 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Robust Recursive Identification of ARX Models Using Beta Divergence2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] ポートハミルトン系のためのPolicy Gradient with Parameter-based Exploration2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 自然勾配を用いたポートハミルトン系のための強化学習の高速化2023

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[雑誌論文] 適格度トレースを用いたポートハミルトン系のための決定論的方策勾配法の提案と数値実験による検証2023

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] プライバシ保護機能をもつベータダイバージェンスを用いた ロバスト線形回帰2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] リスク関数を用いたプライバシ保護安全強化学習2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ベータダイバージェンスを用いた軌道のスコアに基づくカーネル逆強化学習のロバスト化2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ベータダイバージェンスを用いたポートハミルトン系のためのロバスト自然方策勾配強化学習法2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] ポートハミルトン系のための決定論的方策勾配強化学習法2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] ベータダイバージェンスを用いたロバスト自然方策勾配法2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] ポートハミルトン系のための陰的自然方策勾配強化学習法2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 外挿機能を有する関数近似器2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト逐次線形回帰2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] ガウス過程回帰の基礎と状態推定への応用2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] ロバストカーネル逐次最小二乗法における応答曲面法を用いた効率的なデータ取得2020

著者名/発表者名

福永修一東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)

[雑誌論文] プライバシ保護機能をもつベータダイバージェンスを用いたロバスト線形回帰2022