• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

Research Project

Project/Area Number 19K04448
Research InstitutionTokyo Metropolitan College of Industrial Technology

Principal Investigator

福永 修一  東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)

Project Period (FY) 2019-04-01 – 2025-03-31
Keywordsシステム同定 / 機械学習 / ロバスト統計
Outline of Annual Research Achievements

本研究では観測に異常値が含まれるデータからシステムを推定するアルゴリズムを開発することが目的である.計画5年目にあたる2023年度は以下の3つの課題に取り組んだ.
(1) 異常値が含まれるデータからシステムのパラメータを推定する際に,異常値の影響を受けて推定精度が劣化する問題がある.本研究では動的システムを表す基本的なモデルの1つであるARXモデルに対して,異常値が含まれるデータからパラメータを逐次的に精度良く推定する方法を提案した.パラメータの推定にロバストな指標であるベータダイバージェンスを用いることにより,異常値に対してロバストな逐次推定アルゴリズムを構築した.
(2) 本研究ではシステム同定のための非線形モデルとしてポートハミルトン系に着目しており,これまでに提案をしたポートハミルトン系のための強化学習に対して新たにPolicy Gradient with Parameter-based Exploration (PGPE) を導入した方法を提案した.強化学習は確率的方策が用いられるが,制御入力に含まれるノイズがシステムの意図しない動作を引き起こす可能性がある.本研究ではPGPEを用いることにより制御入力にノイズが入らないで強化学習が行える方法を提案した.
(3) 逆強化学習は目的のタスクにおいて最適な行動をとる熟練者の軌道から報酬関数を推定する方法である.最適な軌道を取得する際に熟練者に負担がかかるため,この問題を解決する軌道のスコアに基づく逆強化学習が提案された.しかしながら軌道にスコアを付与する際にセンサの異常や人為的ミスにより異常値が含まれる可能性がある.本研究ではベータダイバージェンスを用いることにより軌道のスコアに基づく逆強化学習をロバスト化する方法を提案した.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

2023年度は研究実績の概要で述べた3つの課題について取り組み,それぞれの課題に対して有効な方法を提案した.当初立てた論文執筆計画よりも遅れているため,進捗状況はやや遅れていると言える.2023年度の具体的な成果は以下の3つである.
(1) ベータダイバージェンスを用いたARXモデルのロバスト逐次同定法は逐次最小二乗法に重みがついた更新則となっている.M推定では重み関数の設計が必要であるが,提案手法は重み関数がベータダイバージェンス最小化から自然に導出されるため設計する必要がない特徴がある.
(2) PGPEを用いたポートハミルトン系の強化学習は方策パラメータが確率分布に従って決められることにより確率的探索を実現する方法である.PGPEはパラメータの推定値の分散が小さいため,通常の方策勾配法を用いた従来手法よりも学習が高速であることが期待でき,数値例により従来手法よりも提案手法の学習が高速であることを示した.
(3) 軌道のスコアに基づく逆強化学習は最小二乗法により報酬関数のパラメータを推定する.提案手法ではパラメータを重みつき最小二乗法により推定し,重み関数はベータダイバージェンス最小化により決定する.重みつき最小二乗法により異常値の影響を抑えた推定を行うことが可能となった.

Strategy for Future Research Activity

2024年度は2023年度に得られた3つの成果をさらに発展させる方向で実施する予定である.
(1) カルマンフィルタはノイズの含まれた観測データからシステムの状態を推定する方法である.逐次最小二乗法はカルマンフィルタの特別な場合であると解釈することができる.次年度はベータダイバージェンスを用いた逐次ロバスト同定アルゴリズムをカルマンフィルタの定式化に拡張し,状態推定問題に応用できる方法を提案する.
(2) PGPEを用いたポートハミルトン系の強化学習は勾配法を用いており,ステップサイズパラメータの値を適切に決めることが難しい.勾配法におけるステップサイズパラメータを決めることなく学習を行うためにEMアルゴリズムを用いた方法が提案されている.次年度はポートハミルトン系の強化学習に対してEMアルゴリズムを用いた方法を導入し,ステップサイズパラメータを決めることなく学習が行える方法を提案する.
(3) 軌道のスコアに基づく逆強化学習は非線形な報酬関数を推定するためにカーネル法を用いている.カーネル法により表現された報酬関数を計算する上で高次元であると計算時間がかかる.この問題を解決するために報酬関数のパラメータをスパース推定する方法を提案し,計算時間の削減を実現する.

Causes of Carryover

論文出版計画に変更が生じたため,今年度使用しなかった経費は次年度の成果発表として使用する予定である.

  • Research Products

    (4 results)

All 2023

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (2 results)

  • [Journal Article] Robust Recursive Identification of ARX Models Using Beta Divergence2023

    • Author(s)
      Shuichi Fukunaga
    • Journal Title

      IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences

      Volume: E106.A Pages: 1580-1584

    • DOI

      10.1587/transfun.2023EAL2011

    • Peer Reviewed / Open Access
  • [Journal Article] ポートハミルトン系のためのPolicy Gradient with Parameter-based Exploration2023

    • Author(s)
      小久保 燎太,福永 修一
    • Journal Title

      電子情報通信学会論文誌D 情報・システム

      Volume: J106-D Pages: 492-500

    • DOI

      10.14923/transinfj.2022JDP7053

    • Peer Reviewed
  • [Presentation] リスク関数を用いたプライバシ保護安全強化学習2023

    • Author(s)
      遠藤拓斗,福永修一
    • Organizer
      第146回数理モデル化と問題解決研究発表会
  • [Presentation] ベータダイバージェンスを用いた軌道のスコアに基づくカーネル逆強化学習のロバスト化2023

    • Author(s)
      江尻尚馬,福永修一
    • Organizer
      第66回自動制御連合講演会

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi