2021 Fiscal Year Annual Research Report

Modelling of human decision making using inverse optimization

Research Project

Project/Area Number	19K04455
Research Institution	Kyushu University
Principal Investigator	村田純一九州大学, システム情報科学研究院, 教授 (60190914)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	人のモデル / 人の判断 / 社会サービス / 個人化 / 逆強化学習 / 多目的最適化 / 対話型進化計算
Outline of Annual Research Achievements	人は自身の行動によって生ずる結果の良さを意思決定の基準とする．行動結果の良さの評価は各人で異なり，外部から知ることはできない．この評価を表す関数を観測可能なデータから推定することが本研究の目的である．これは，熟練者の操作・作業を高精度に模倣できる機械・装置の実現や，満足度の高い人の行動誘導を可能とする．この推定は，最適な行動結果を基にそれを導く目的関数を求める逆最適化問題となる．逆最適化問題は通常一意解を持たない．複数個存在する解の中から，推定に利用したデータ以外にも適用可能な汎化性の高い関数を一意に求めることを本研究の中心課題に据え，以下の成果を得た．行動結果の良さを表す関数に関する事前情報がない場合，汎用性の高い基底関数表現を用いることが妥当である．この際に，使用する基底関数の個数や基底関数を規定するパラメータの値を，推定結果が高い汎化性を持つように決定する方法を最終年度に完成させ，インセンティブ型デマンドレスポンス問題を例として有効性を確認した．対象関数が複数個の判断基準によって構成されることが分かっている場合，問題はこれらの判断基準の重要性を表す係数の決定問題に帰着する．活用情報を増やしてより適切な値を求めるために，最適な行動結果に加えて非最適な行動結果をも活用する方法を提案した．また，最終年度は，車の運転を例に，より短時間でこの係数を推定し，これを用いて人間の運転に近い運転軌道の自動生成を行う方法を考案した．さらに，データに基づいて決定した係数に人の主観に基づく係数を適切に混合し，合理的な係数を得る方法を開発し，電力デマンドレスポンスの評価に関するデータに適用してその有効性を確認した．加えて，人間が計算機と対話を行いながら最適化を行う対話型進化計算で得られる情報から，複数ある判断基準のうちどれを重視して判断を行っているのかを推定する方法を開発した．

Research Products
(3 results)

All Presentation (3 results) (of which Invited: 1 results)

[Presentation] 人間の判断基準の推定2021
- Author(s)
  村田純一, 船木亮平
- Organizer
  日本オペレーションズリサーチ学会「エネルギーシステムの進化とOR」研究部会第５回研究会
- Invited
[Presentation] 逆強化学習によるコスト関数推定に基づく自動運転の軌道最適化2021
- Author(s)
  徐士豪, 船木亮平, 村田純一
- Organizer
  計測自動制御学会システム・情報部門学術講演会 2021
[Presentation] 逆強化学習における報酬関数を表す基底関数群のベイズ最適化による決定2021
- Author(s)
  内山海渡, 船木亮平, 村田純一
- Organizer
  計測自動制御学会システム・情報部門学術講演会 2021