• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Analysis of the latent preference mechanism that produces diverse behaviors

Research Project

Project/Area Number 22KJ0480
Project/Area Number (Other) 22J13047 (2022)
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeMulti-year Fund (2023)
Single-year Grants (2022)
Section国内
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionThe University of Tokyo (2023)
Chiba University (2022)

Principal Investigator

岸川 大航  東京大学, 大学院総合文化研究科, 特別研究員(PD)

Project Period (FY) 2023-03-08 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2023: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2022: ¥900,000 (Direct Cost: ¥900,000)
Keywords逆強化学習 / デモンストレーションからの学習 / 模倣学習 / 準最適デモンストレーション / 多目的逆強化学習 / 人間らしさの定量化 / 分類型逆強化学習 / エキスパートのみからの逆強化学習 / ニューラルスカラー化 / 報酬行列分解 / 多目的深層逆強化学習 / 報酬追跡学習法
Outline of Research at the Start

逆強化学習は,手本となる人間(熟練者)の振る舞いを,強化学習における意思決定者(エージェント)が模倣可能な報酬の推定を目標とする手法である.申請者は,逆強化学習の実応用上の課題であった,「比較対象を必要としない高速な逆強化学習」と,「複数の目的を考慮する(多目的)逆強化学習」の開発を進めてきた.そこで,これら二つの研究のさらなる性能検証と,可能であれば実世界の人間によるデータ等に対する適用を目標に,検証実験を行う.

Outline of Annual Research Achievements

今年度は、準最適デモンストレーションのための逆強化学習手法を開発した。また、逆強化学習の自然言語処理への応用についても研究した。
まず、前者について概説する。逆強化学習では、準最適なデモンストレーションは推定報酬に影響を与える可能性がある。そこで、我々はガンマ二値クロスエントロピー関数を用いて、準最適デモンストレーションから高性能な報酬を推定する手法を提案した。MuJoCo環境における実験により、準最適デモンストレーションにおいては、既存の手法よりも、提案手法の方がより高い性能を得る報酬を推定可能であることが示された。
次に、後者について概説する。Transformerをベースとした注意ベースのモデルが近年自然言語処理に用いられているが、説明可能性は限定的であり、また「人間らしさ」のような定性的な尺度に基づくモデルの学習は困難である。そこで、我々は逆強化学習を自然言語処理に導入し、人間らしさを定量化する手法を開発した。具体的には、オフライン分類ベースの逆強化学習で報酬を推定することで、「人間らしい文章」と「人間らしくない文章」を区別し、「人間らしさ」を評価する。計算実験において、夏目漱石の作品の特徴に対する報酬を推定することで、夏目漱石の作品と他の作家の作品を区別できることが示された。
研究期間全体を通じて、「オフライン逆強化学習の改良」と「多目的逆強化学習の開発」において、大きな成果を上げることができた。まず、「オフライン逆強化学習の改良」においては、敵対的生成ネットワーク、報酬追跡原理、ガンマダイバージェンスを用いたアプローチにより、高速に、準最適なデモンストレーションから、高性能な報酬を得る手法を開発した。また、人間のデータである文章データに適用した。さらに、「多目的逆強化学習の開発」においては、多目的逆強化学習を世界で初めて定式化し、実際に解くことのできる手法を提案した。

Report

(2 results)
  • 2023 Annual Research Report
  • 2022 Annual Research Report
  • Research Products

    (6 results)

All 2024 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 1 results,  Invited: 1 results)

  • [Journal Article] Neural scalarisation for multi-objective inverse reinforcement learning2023

    • Author(s)
      Kishikawa Daiko、Arai Sachiyo
    • Journal Title

      SICE Journal of Control, Measurement, and System Integration

      Volume: Latest Articles Issue: 1 Pages: 1-12

    • DOI

      10.1080/18824889.2023.2194234

    • Related Report
      2022 Annual Research Report
    • Peer Reviewed / Open Access
  • [Presentation] 逆強化学習による文章における人間らしさの推定2024

    • Author(s)
      岸川大航, 大関洋平
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] ガンマダイバージェンスに基づく準最適な軌跡のための逆強化学習2023

    • Author(s)
      岸川大航, 荒井幸代
    • Organizer
      2023年度人工知能学会全国大会(第37回)
    • Related Report
      2023 Annual Research Report
  • [Presentation] 多目的逆強化学習のための報酬行列分解2022

    • Author(s)
      岸川大航, 荒井幸代
    • Organizer
      2022年度人工知能学会全国大会(第36回)
    • Related Report
      2022 Annual Research Report
  • [Presentation] Multi-Objective Deep Inverse Reinforcement Learning through Direct Weights and Rewards Estimation2022

    • Author(s)
      Kishikawa Daiko, Arai Sachiyo
    • Organizer
      2022 61st Annual Conference of the Society of Instrument and Control Engineers (SICE)
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 深層逆強化学習入門 ~ 自動運転を例として ~2022

    • Author(s)
      岸川大航
    • Organizer
      自動車技術会第3回エレクトロニクス部門委員会(公開委員会) Cars that think and communicate Part Ⅵ 強化学習の最先端
    • Related Report
      2022 Annual Research Report
    • Invited

URL: 

Published: 2022-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi