2022 Fiscal Year Annual Research Report
Analysis of the latent preference mechanism that produces diverse behaviors
Project/Area Number |
22J13047
|
Allocation Type | Single-year Grants |
Research Institution | Chiba University |
Principal Investigator |
岸川 大航 千葉大学, 融合理工学府, 特別研究員(DC2)
|
Project Period (FY) |
2022-04-22 – 2024-03-31
|
Keywords | 逆強化学習 / 分類型逆強化学習 / 多目的逆強化学習 / エキスパートのみからの逆強化学習 / ニューラルスカラー化 / 報酬行列分解 / 多目的深層逆強化学習 / 報酬追跡学習法 |
Outline of Annual Research Achievements |
ベースラインの不要な分類型逆強化学習と,多目的逆強化学習についての研究を実施した.分類型逆強化学習については,手本となるエキスパートデータのみから学習するために,エキスパートは常に報酬の高い方向へ進行し続ける,という「報酬追跡原理」と呼ばれる報酬モデルを考案し,このモデルをもとに学習する手法「報酬追跡学習法」を提案した.この手法を後述する多目的深層逆強化学習において逆強化学習手法として利用し,論文内において発表した.多目的逆強化学習については,2022年度に大きく研究が進展した.2021年にまず発表した,非負値行列因子分解(NMF)によって多目的逆強化学習を解くことが可能な手法をもとに,2022年に勾配降下法を導入することで非負の制約が不要となった手法(報酬行列分解)を提案した.申請者は,この発表と同時並行で,行列分解をニューラルネットワークの構造として構築し,従来の深層逆強化学習手法の中に組み込むことによって学習する手法を検討・実験しており,その成果を「多目的深層逆強化学習」として続けて発表した.多目的深層逆強化学習は世界初の試みであり,学習が成功することを示すことができたことは重要な成果と言える.そして,多目的深層逆強化学習の研究を更に発展させ,重みと報酬の総和を計算する(線形スカラー化と呼ばれる)という仮定をなくすために,最大値を取るチェビシェフスカラー化(非線形スカラー化の一種)を含んだ重み付けスカラー化の一般化を定義し,このスカラー化操作をニューラルネットワークによって学習する「ニューラルスカラー化」を開発した.この研究成果は査読を経て,英文ジャーナルに採択された.また,常に最適行動を取り続けるエキスパートは非現実的であるため,時に最適でない行動を取るエキスパート(準最適なエキスパート)のデータにも対応するべく,新たな視点からの手法を開発し,現在実験を進めている.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の研究計画の作成時には,エキスパートのみから学習する手法についてはある程度進めていたものの,多目的逆強化学習については純粋に行列分解を適用するのみの手法しか考案できていなかった.しかし,研究を進めるうちに,次々とアイデアが浮かび,当初は予想もしていなかった発展的成果を達成することができた.まず,非負値行列因子分解の非負制約を除去するために理論的分析を試みていたところ,近年のニューラルネットワークライブラリに付属する自動微分を用いた勾配降下法によって解けるのではないかという発想にいたり,実装して実験してみたところ成功したという体験があった.次に,選好の異なるエキスパートごとに個別に逆強化学習を実行する必要がある問題を解決するにあたり,そもそも行列に変換する過程を経ずに,報酬を推定するニューラルネットワークの出力を多目的化し,これに各エキスパートごとに割り当てた番号から重みを出力するニューラルネットワークとを組み合わせ,最終的なスカラーの報酬値を任意の逆強化学習手法によって学習することにより,誤差逆伝播によって両ネットワークを同時更新することも可能ではないか,という発想が生まれた.この解決策についても早速実装を行い,いくつかの安定化技術を取り入れることによって,実際に動作する手法を開発することができた.そして,従来続けてきた研究において必須の仮定と思われていた,線形スカラー化の仮定も不要となるのではないかと考え,スカラー化をニューラルネットワークによって学習する手法を開発するまでにいたった.これらの一連の研究の過程において,様々な多目的逆強化学習手法を提案できたのみならず,どのような安定化技術が必要・あるいは効果的であるか,どのような実装が好ましいか,といった多くの知見を獲得することもできた.よって,本年度は多目的逆強化学習について,飛躍的に研究・理解を進められたと言える.
|
Strategy for Future Research Activity |
今後の研究の方向は主に二つである.一つは「準最適なエキスパートデータへの対応策の検討」であり,もう一つは「実世界データへの応用検討」である.まず,研究実績の概要において述べた通り,エキスパートが完全に最適な行動を取り続けているという仮定はシミュレーション上では容易に満たすことができるが,実世界での問題においては非現実的であると考えられる.さらに,オフライン型逆強化学習手法には,完全にランダムな行動を取り続けた際のデータも追加で必要とするものがあるが,これも同様に実世界においては非現実的である.実世界問題において取得可能であると予想されるデータは,ある程度最適であるが時折最適ではない行動が混入しているようなデータ(準最適なエキスパートデータ)である.また,比較対象となるデータとしても,準最適なエキスパートほど最適ではないが,少数の最適な行動を含むようなデータが考えられる.そこで,このようなエキスパートデータに対応可能な逆強化学習手法の開発が求められている.従来研究では,エキスパートデータを人間が評価して作成したランキングを利用して,ランキングが上位になるような報酬を推定する手法が提案されてきたが,人手での作成が高コストになると予想されるランキングデータが必要であり,ランキングの正確性に性能が強く影響される.そこで,ランキングベースの手法とは異なる,新たな視点からの手法を開発する予定である.この手法はすでに国内学会に採択されており,発表が決定している.もう一つの方向性である実世界データへの応用検討も,研究を進める上で重要な課題の一つである.実世界における問題は,センサー入力よりも学習が困難な,画像データを入力とする必要があったり,シミュレーション上では考慮されないノイズを含む環境由来のデータを元に学習する必要がある.これらの問題に対応できるよう,改良を進める必要もあると考える.
|