2021 Fiscal Year Research-status Report

ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

Research Project

Project/Area Number	19K04448
Research Institution	Tokyo Metropolitan College of Industrial Technology
Principal Investigator	福永修一東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	システム同定 / 機械学習 / ロバスト統計
Outline of Annual Research Achievements	本研究では観測データ異常値が含まれるデータからシステムを推定するアルゴリズムを開発することが目的である．計画3年目にあたる2021年度は以下の3つの課題に取り組んだ． (1) 情報技術の発達により容易に大量のデータを集めることができるようになったが，その一方でデータに含まれる個人情報や機密情報を守ることが課題となる．データのプライバシを保護した上でモデルを推定する最も基本的な手法である線形回帰に着目する．前年度までに異常値が含まれたデータに対してベータダイバージェンスを用いたロバストな単回帰分析を行う方法を提案した．今年度はこの方法を重回帰分析に拡張した． (2) 強化学習は未知のシステムに対して試行錯誤により累積報酬を最大化する制御則を獲得するアルゴリズムである．報酬の観測に異常値が含まれる場合には正しく学習ができないため，異常値の影響を抑えた推定が必要となる．これまでに報酬の観測に異常値が含まれる問題に対してロバスト自然方策勾配法は提案されているが，最小二乗法により一括してパラメータを更新していた．本研究ではパラメータを逐次更新可能なロバスト自然方策勾配法を提案した． (3) 強化学習は対象とするシステムが未知であるため，システムの推定と制御が同時に行われるが，推定するためには十分なサンプル数が必要なため学習に時間がかかるという問題がある．本研究では対象をポートハミルトン系に限定することにより高速に学習できる強化学習アルゴリズムに着目する．前年度までに自然勾配法を用いたポートハミルトン系の強化学習アルゴリズムを提案したが，学習過程が数値的に不安定であった．今年度は陰的勾配法を用いることにより数値的に安定なアルゴリズムを提案した．さらにこれまで用いられてきた確率的方策を決定論的方策に置きかえた学習アルゴリズムを提案した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2021年度は研究実績の概要で述べた3つの課題について取り組み，それぞれの課題に対して有効な方法を提案した．具体的な成果は以下の3つである． (1) プライバシ機能を持つロバスト重回帰分析では2者間で垂直分割された秘密データを秘匿したまま推定を行う．外れ値の影響を抑えるために導出された重み関数の出力は実数となるが暗号プロトコルでは整数しか扱うことができない．そこで重み関数を多項式近似することにより出力を整数にするアルゴリズムを提案した．そして外れ値が含まれた人工データに対して提案手法を適用し，外れ値の影響を抑えた推定が行えることを確認した．さらに重み関数を多項式近似した影響がないことも確認した． (2) パラメータが逐次更新可能なロバスト自然方策勾配法は，ベータダイバージェンスを最小化することによりロバストな推定アルゴリズムを導出した．導出されたアルゴリズムは更新則に重みがついた形となり，報酬の観測に外れ値が含まれた場合には重みが0に近い値となり更新する値が発散しないよう調整ができる．提案手法を線形システムと倒立振子の制御問題に適用し提案手法の有効性を確認した． (3) ポートハミルトン系のための陰的自然方策勾配法は，前年度提案した自然方策勾配法に陰的方法を導入した．そして提案手法が前年度提案した方法よりも学習の成功率が上昇したことを確認した．さらにポートハミルトン系の強化学習ではこれまで確率的方策が用いられていたため，決定論的方策を用いたアルゴリズムを導出した．ポートハミルトン系に対して決定論的方策勾配法を導出し，さらに適格度トレースを導入した．倒立振子の制御問題において決定論的方策勾配法が正しく動作し，さらに適格度トレースを導入すると学習が速くなること確認した．
Strategy for Future Research Activity	2022年度は2021年度に得られた3つの成果をさらに発展させる方向で実施する予定である． (1) プライバシ保護機能を持つロバスト重回帰分析では2者のパーティが協力して推定を行う方法であった．次年度はこのアルゴリズムを3者以上のパーティにおいて推定を行えるように拡張する． (2) パラメータが逐次更新可能なロバスト自然方策勾配法は汎用的なアルゴリズムであるが，対象を限定することに学習が速くなることが期待できる．そこでロバスト自然方策勾配法の対象をポートハミルトン系に限定してアルゴリズムを導出する．ポートハミルトン系に対する制御則のパラメータを学習することにより，一般的な方策関数を学習するよりも速くなると予想される． (3) ポートハミルトン系のための決定論的方策勾配法は最終的に得られる方策は決定論的であるが，学習途中は確率的方策を用いており，制御入力にノイズが入っている．そのためノイズの影響で制御系が意図しない動作をする可能性がある．強化学習では確率的探索が重要となるが，確率的要素を制御入力に加えるノイズではなく，方策パラメータを確率的に決定する方法が提案されている．この方法をポートハミルトン系に応用する方法を提案する．
Causes of Carryover	当初は学会発表のための出張旅費を予算に組み込んでいたが，新型コロナウイルス感染症が収束せずに学会がオンライン開催であったため，出張旅費を使用しなかった．次年度の成果発表の経費として使用する予定である．

Research Products
(4 results)

All 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

[Journal Article] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト線形回帰2022
- Author(s)
  竹下虎太朗，福永修一，田中覚，黄緒平
- Journal Title
  
  電子情報通信学会論文誌A
  
  Volume: J105-A Pages: -
- DOI
  10.14923/transfunj.2021JAP1023
- Peer Reviewed
[Presentation] ポートハミルトン系のための決定論的方策勾配強化学習法2022
- Author(s)
  福永修一，小久保燎太
- Organizer
  第9回計測自動制御学会制御部門マルチシンポジウム
[Presentation] ベータダイバージェンスを用いたロバスト自然方策勾配法2022
- Author(s)
  小久保燎太，福永修一
- Organizer
  電子情報通信学会情報論的学習理論と機械学習研究会
[Presentation] ポートハミルトン系のための陰的自然方策勾配強化学習法2021
- Author(s)
  福永修一，岩本有生
- Organizer
  第64回自動制御連合講演会

2021 Fiscal Year Research-status Report

ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

Principal Investigator

福永 修一 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)

Current Status of Research Progress

Reason

Research Products

[Journal Article] プライバシ保護機能を持つベータダイバージェンスを用いたロバスト線形回帰2022

Author(s)

Journal Title

DOI

[Presentation] ポートハミルトン系のための決定論的方策勾配強化学習法2022

Author(s)

Organizer

[Presentation] ベータダイバージェンスを用いたロバスト自然方策勾配法2022

Author(s)

Organizer

[Presentation] ポートハミルトン系のための陰的自然方策勾配強化学習法2021

Author(s)

Organizer

福永修一東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)