研究課題
特別研究員奨励費
逆強化学習は,手本となる人間(熟練者)の振る舞いを,強化学習における意思決定者(エージェント)が模倣可能な報酬の推定を目標とする手法である.申請者は,逆強化学習の実応用上の課題であった,「比較対象を必要としない高速な逆強化学習」と,「複数の目的を考慮する(多目的)逆強化学習」の開発を進めてきた.そこで,これら二つの研究のさらなる性能検証と,可能であれば実世界の人間によるデータ等に対する適用を目標に,検証実験を行う.
今年度は、準最適デモンストレーションのための逆強化学習手法を開発した。また、逆強化学習の自然言語処理への応用についても研究した。まず、前者について概説する。逆強化学習では、準最適なデモンストレーションは推定報酬に影響を与える可能性がある。そこで、我々はガンマ二値クロスエントロピー関数を用いて、準最適デモンストレーションから高性能な報酬を推定する手法を提案した。MuJoCo環境における実験により、準最適デモンストレーションにおいては、既存の手法よりも、提案手法の方がより高い性能を得る報酬を推定可能であることが示された。次に、後者について概説する。Transformerをベースとした注意ベースのモデルが近年自然言語処理に用いられているが、説明可能性は限定的であり、また「人間らしさ」のような定性的な尺度に基づくモデルの学習は困難である。そこで、我々は逆強化学習を自然言語処理に導入し、人間らしさを定量化する手法を開発した。具体的には、オフライン分類ベースの逆強化学習で報酬を推定することで、「人間らしい文章」と「人間らしくない文章」を区別し、「人間らしさ」を評価する。計算実験において、夏目漱石の作品の特徴に対する報酬を推定することで、夏目漱石の作品と他の作家の作品を区別できることが示された。研究期間全体を通じて、「オフライン逆強化学習の改良」と「多目的逆強化学習の開発」において、大きな成果を上げることができた。まず、「オフライン逆強化学習の改良」においては、敵対的生成ネットワーク、報酬追跡原理、ガンマダイバージェンスを用いたアプローチにより、高速に、準最適なデモンストレーションから、高性能な報酬を得る手法を開発した。また、人間のデータである文章データに適用した。さらに、「多目的逆強化学習の開発」においては、多目的逆強化学習を世界で初めて定式化し、実際に解くことのできる手法を提案した。
すべて 2024 2023 2022
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (5件) (うち国際学会 1件、 招待講演 1件)
SICE Journal of Control, Measurement, and System Integration
巻: Latest Articles 号: 1 ページ: 1-12
10.1080/18824889.2023.2194234