多様な行動を生み出す潜在的選好メカニズムの解析

研究課題

研究課題/領域番号	22KJ0480
補助金の研究課題番号	22J13047 (2022)
研究種目	特別研究員奨励費
配分区分	基金 (2023) 補助金 (2022)
応募区分	国内
審査区分	小区分61030:知能情報学関連
研究機関	東京大学 (2023) 千葉大学 (2022)
研究代表者	岸川大航東京大学, 大学院総合文化研究科, 特別研究員(PD)
研究期間 (年度)	2023-03-08 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	1,700千円 (直接経費: 1,700千円) 2023年度: 800千円 (直接経費: 800千円) 2022年度: 900千円 (直接経費: 900千円)
キーワード	逆強化学習 / デモンストレーションからの学習 / 模倣学習 / 準最適デモンストレーション / 多目的逆強化学習 / 人間らしさの定量化 / 分類型逆強化学習 / エキスパートのみからの逆強化学習 / ニューラルスカラー化 / 報酬行列分解 / 多目的深層逆強化学習 / 報酬追跡学習法
研究開始時の研究の概要	逆強化学習は，手本となる人間（熟練者）の振る舞いを，強化学習における意思決定者（エージェント）が模倣可能な報酬の推定を目標とする手法である．申請者は，逆強化学習の実応用上の課題であった，「比較対象を必要としない高速な逆強化学習」と，「複数の目的を考慮する（多目的）逆強化学習」の開発を進めてきた．そこで，これら二つの研究のさらなる性能検証と，可能であれば実世界の人間によるデータ等に対する適用を目標に，検証実験を行う．
研究実績の概要	今年度は、準最適デモンストレーションのための逆強化学習手法を開発した。また、逆強化学習の自然言語処理への応用についても研究した。まず、前者について概説する。逆強化学習では、準最適なデモンストレーションは推定報酬に影響を与える可能性がある。そこで、我々はガンマ二値クロスエントロピー関数を用いて、準最適デモンストレーションから高性能な報酬を推定する手法を提案した。MuJoCo環境における実験により、準最適デモンストレーションにおいては、既存の手法よりも、提案手法の方がより高い性能を得る報酬を推定可能であることが示された。次に、後者について概説する。Transformerをベースとした注意ベースのモデルが近年自然言語処理に用いられているが、説明可能性は限定的であり、また「人間らしさ」のような定性的な尺度に基づくモデルの学習は困難である。そこで、我々は逆強化学習を自然言語処理に導入し、人間らしさを定量化する手法を開発した。具体的には、オフライン分類ベースの逆強化学習で報酬を推定することで、「人間らしい文章」と「人間らしくない文章」を区別し、「人間らしさ」を評価する。計算実験において、夏目漱石の作品の特徴に対する報酬を推定することで、夏目漱石の作品と他の作家の作品を区別できることが示された。研究期間全体を通じて、「オフライン逆強化学習の改良」と「多目的逆強化学習の開発」において、大きな成果を上げることができた。まず、「オフライン逆強化学習の改良」においては、敵対的生成ネットワーク、報酬追跡原理、ガンマダイバージェンスを用いたアプローチにより、高速に、準最適なデモンストレーションから、高性能な報酬を得る手法を開発した。また、人間のデータである文章データに適用した。さらに、「多目的逆強化学習の開発」においては、多目的逆強化学習を世界で初めて定式化し、実際に解くことのできる手法を提案した。

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(6件)

すべて 2024 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (5件) (うち国際学会 1件、招待講演 1件)

[雑誌論文] Neural scalarisation for multi-objective inverse reinforcement learning2023
- 著者名/発表者名
  Kishikawa Daiko、Arai Sachiyo
- 雑誌名
  
  SICE Journal of Control, Measurement, and System Integration
  
  巻: Latest Articles 号: 1 ページ: 1-12
- DOI
  10.1080/18824889.2023.2194234
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[学会発表] 逆強化学習による文章における人間らしさの推定2024
- 著者名/発表者名
  岸川大航, 大関洋平
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] ガンマダイバージェンスに基づく準最適な軌跡のための逆強化学習2023
- 著者名/発表者名
  岸川大航, 荒井幸代
- 学会等名
  2023年度人工知能学会全国大会（第37回）
- 関連する報告書
  2023 実績報告書
[学会発表] 多目的逆強化学習のための報酬行列分解2022
- 著者名/発表者名
  岸川大航, 荒井幸代
- 学会等名
  2022年度人工知能学会全国大会（第36回）
- 関連する報告書
  2022 実績報告書
[学会発表] Multi-Objective Deep Inverse Reinforcement Learning through Direct Weights and Rewards Estimation2022
- 著者名/発表者名
  Kishikawa Daiko, Arai Sachiyo
- 学会等名
  2022 61st Annual Conference of the Society of Instrument and Control Engineers (SICE)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 深層逆強化学習入門～自動運転を例として～2022
- 著者名/発表者名
  岸川大航
- 学会等名
  自動車技術会第3回エレクトロニクス部門委員会（公開委員会） Cars that think and communicate Part Ⅵ 強化学習の最先端
- 関連する報告書
  2022 実績報告書
- 招待講演

多様な行動を生み出す潜在的選好メカニズムの解析

研究代表者

岸川 大航 東京大学, 大学院総合文化研究科, 特別研究員(PD)

1,700千円 (直接経費: 1,700千円)

報告書

研究成果

[雑誌論文] Neural scalarisation for multi-objective inverse reinforcement learning2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 逆強化学習による文章における人間らしさの推定2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] ガンマダイバージェンスに基づく準最適な軌跡のための逆強化学習2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 多目的逆強化学習のための報酬行列分解2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Multi-Objective Deep Inverse Reinforcement Learning through Direct Weights and Rewards Estimation2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層逆強化学習入門 ～ 自動運転を例として ～2022

著者名/発表者名

学会等名

関連する報告書

岸川大航東京大学, 大学院総合文化研究科, 特別研究員(PD)

[学会発表] 深層逆強化学習入門～自動運転を例として～2022