2022 Fiscal Year Research-status Report

ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

Research Project

Project/Area Number	19K04448
Research Institution	Tokyo Metropolitan College of Industrial Technology
Principal Investigator	福永修一東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (70402518)
Project Period (FY)	2019-04-01 – 2024-03-31
Keywords	システム同定 / 機械学習 / ロバスト統計 / 強化学習
Outline of Annual Research Achievements	本研究では観測に異常値が含まれるデータからシステムを推定するアルゴリズムを開発することが目的である．計画4年目にあたる2022年度は以下の3つの課題に取り組んだ． (1) システム同定のための非線形モデルとして本研究はポートハミルトン系に着目し，ポートハミルトン系のための強化学習法を提案した．強化学習は試行錯誤により報酬を最大化する制御則を獲得するアルゴリズムである．ポートハミルトン系のための強化学習は，未知パラメータを含むポートハミルトン系に対して制御則を学習する方法である．従来提案されていたポートハミルトン系のための強化学習に対して自然勾配法を導入することにより，従来よりも高速に学習が可能なアルゴリズムを提案した． (2) ポートハミルトン系のための強化学習はこれまで確率的方策が用いられてきたが，制御入力に含まれるノイズがシステムの意図しない動作を引き起こす可能性がある．本研究では確率的方策を決定論的方策に置きかえることにより制御入力にノイズが入らないようにし，決定論的方策を勾配法により学習するアルゴリズムを提案した． (3) 強化学習は報酬を最大化するアルゴリズムであるが，実問題を考えると報酬の観測に外れ値が混入する場合がある．外れ値の影響を抑えた推定を行う方法としてベータダイバージェンスを用いたロバスト推定が提案されている．ベータダイバージェンスを用いたロバスト推定は重み関数を用いることにより外れ値の影響を抑えた推定を行うことができる．本研究ではポートハミルトン系のための強化学習において，報酬の観測に外れ値が含まれる問題に対してベータダイバージェンスを用いたロバストなパラメータ更新則を提案した．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 2022年度は研究実績の概要で述べた3つの課題について取り組み，それぞれの課題に対して有効な方法を提案した．ベータダイバージェンスを用いた動的システムの推定に関する研究に関して一部遅れていることから進捗状況はやや遅れていると言える．2022年度の具体的な成果は以下の3つである． (1) ポートハミルトン系のための強化学習に対して方策の学習に自然勾配法を用いることにより，従来手法よりも学習が高速なアルゴリズムを提案した．提案手法ではTD誤差を用いて状態価値関数のパラメータを逐次更新している点が特徴となっている． (2) ポートハミルトン系のための決定論的方策勾配法として方策オフ型の学習アルゴリズムを導出した．方策オフ型のアルゴリズムでは探索時にノイズをのせる一方，方策オン型ではノイズをのせないアルゴリズムとなっている．本来であれば方策オン型を選択する必要があるが，探索時にノイズをのせないと学習が進まないため本研究では方策オフ型を採用した． (3) ポートハミルトン系の強化学習ではパラメータを逐次更新する点が特徴である．パラメータの逐次更新則において重み関数を導入することにより，報酬の観測に外れ値が含まれた場合には，重み関数が小さくなることにより外れ値の影響を抑えたパラメータの更新ができるアルゴリズムを導出した．
Strategy for Future Research Activity	2023年度は2022年度に得られた3つの成果を発展させ，さらに今年度十分に進めることができなかった研究を1件実施する予定である． (1) ポートハミルトン系の強化学習ではシステムのパラメータの一部を既知としている．強化学習は未知のモデルに対して方策を学習するアルゴリズムであるため，システムのすべてのパラメータが未知であることが望ましい．システムのすべてのパラメータを未知としてポートハミルトン系の制御則を勾配法により学習するアルゴリズムを導出する． (2) 強化学習において決定論的方策を用いる場合において，確率的探索を実現するために制御入力にノイズをのせるのではなく，方策パラメータを確率的に決めるPolicy Gradient with Parameter-based Explorationと呼ばれる方法が提案されている．この方法をポートハミルトン系のための強化学習に導入することにより，決定論的方策を用いても確率的な探索を行えるアルゴリズムが構築できると期待できる． (3) 強化学習は報酬関数の設計が必要となるが，複雑なタスクにおいては報酬関数の設計が難しいという問題がある．報酬関数を熟練者の行動データから推定する方法として逆強化学習が提案されている．行動データの観測に外れ値が含まれる場合において，ベータダイバージェンスを用いることにより外れ値に対してロバストな逆強化学習法を提案する． (4) 外れ値が含まれる観測データから動的システムのパラメータを逐次的に推定する問題においてもベータダイバージェンスを用いた方法は有効であると期待できる．動的システムのパラメータに対する逐次最小二乗法のアルゴリズムをベータダイバージェンスを用いることによりロバスト化する方法を提案する．
Causes of Carryover	論文出版計画に変更が生じたため，今年度使用しなかった経費は次年度の成果発表として使用する予定である．