2023 Fiscal Year Annual Research Report
Analysis of the latent preference mechanism that produces diverse behaviors
Project/Area Number |
22KJ0480
|
Allocation Type | Multi-year Fund |
Research Institution | The University of Tokyo |
Principal Investigator |
岸川 大航 東京大学, 大学院総合文化研究科, 特別研究員(PD)
|
Project Period (FY) |
2023-03-08 – 2024-03-31
|
Keywords | 逆強化学習 / デモンストレーションからの学習 / 模倣学習 / 準最適デモンストレーション / 多目的逆強化学習 / 人間らしさの定量化 |
Outline of Annual Research Achievements |
今年度は、準最適デモンストレーションのための逆強化学習手法を開発した。また、逆強化学習の自然言語処理への応用についても研究した。 まず、前者について概説する。逆強化学習では、準最適なデモンストレーションは推定報酬に影響を与える可能性がある。そこで、我々はガンマ二値クロスエントロピー関数を用いて、準最適デモンストレーションから高性能な報酬を推定する手法を提案した。MuJoCo環境における実験により、準最適デモンストレーションにおいては、既存の手法よりも、提案手法の方がより高い性能を得る報酬を推定可能であることが示された。 次に、後者について概説する。Transformerをベースとした注意ベースのモデルが近年自然言語処理に用いられているが、説明可能性は限定的であり、また「人間らしさ」のような定性的な尺度に基づくモデルの学習は困難である。そこで、我々は逆強化学習を自然言語処理に導入し、人間らしさを定量化する手法を開発した。具体的には、オフライン分類ベースの逆強化学習で報酬を推定することで、「人間らしい文章」と「人間らしくない文章」を区別し、「人間らしさ」を評価する。計算実験において、夏目漱石の作品の特徴に対する報酬を推定することで、夏目漱石の作品と他の作家の作品を区別できることが示された。 研究期間全体を通じて、「オフライン逆強化学習の改良」と「多目的逆強化学習の開発」において、大きな成果を上げることができた。まず、「オフライン逆強化学習の改良」においては、敵対的生成ネットワーク、報酬追跡原理、ガンマダイバージェンスを用いたアプローチにより、高速に、準最適なデモンストレーションから、高性能な報酬を得る手法を開発した。また、人間のデータである文章データに適用した。さらに、「多目的逆強化学習の開発」においては、多目的逆強化学習を世界で初めて定式化し、実際に解くことのできる手法を提案した。
|