2017 Fiscal Year Annual Research Report
モデル予測政策決定のためのエージェントベース・データ同化モデル
Project/Area Number |
17H02035
|
Research Institution | University of Tsukuba |
Principal Investigator |
倉橋 節也 筑波大学, ビジネスサイエンス系, 教授 (40431663)
|
Co-Investigator(Kenkyū-buntansha) |
寺野 隆雄 東京工業大学, 情報理工学院, 教授 (20227523)
高橋 大志 慶應義塾大学, 経営管理研究科(日吉), 教授 (60420478)
津田 和彦 筑波大学, ビジネスサイエンス系, 教授 (50302378)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | データ同化 / 逆強化学習 / エージェントモデル / 社会経済制度設計 |
Outline of Annual Research Achievements |
1)学習アルゴリズムによるパラメータ推定手法の設計と実装:エージェントモデルのパラメータ推定のための、強化学習アルゴリズムを利用し、複数の出現パターンを同時推定するため,逆強化学習手法を用いたデータ同化を提案した。一般的なデータ同化においては、非線形で正規分布を仮定しない現象に対してアンサンブルカルマンフィルタ-や粒子フィルターを用いて分布推定を行うが、本提案モデルでは,観測データから報酬を推定する逆強化学習の手法を利用し,エージェントの行動意思決定ルールを推定できるようにした。 2)エージェントベース・データ同化モデルの設計と実装:上記のパラメータ推定手法を状態空間モデルに組み込むことで、ルール推論が可能なエージェントベース・データ同化モデルを構築する提案を行った。逆強化学習は,Russellによって最適な行動系列や. 環境モデルを所与として報酬関数を求める問題として定義され,様々な手法が提案されている。Ngらは有限状態空間を持つ環境に対しては線形計画法,無限の状態空間を持つ環境に対してはモンテカルロ法を用いて報酬関数を推定する手法を示し,Abbeelらは報酬関数を推定する過程で最適な方策を獲得する見習い学習に基づく手法を示した。本年度は,Ngらの手法を適用し,農業生産者データの逆強化学習への適用を検討した。 3)社会・経済制度の実証データ収集:基礎となるエージェントベース・データ同化モデルの検証のために、システムモデルがエージェントモデルで記述でき、適切な観測データが存在する社会・経済制度の実証データとして,沖縄県の農業生産者データの収集を行った。データは農林水産省及び自治体の統計情報を使用し,統計情報には年度毎に作付け品目,品目毎の作付け面積,収穫量,単価などが含まれており,これらの情報を逆強化学習の各パラメータとして適用できるものである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画である,1)進化・学習アルゴリズムによるパラメータ推定手法の設計と実装は,粒子フィルターの計算負荷を検討した結果,逆強化学習の適用がより適切であることが判明したため,こちらの手法で実現することでモデル化と実験を進めている。また,2)エージェントベース・データ同化モデルの設計と実装については,農業政策および空港での搭乗者推定を目的としたモデル作成を行い,実験が進んでいる。3)社会・経済制度の実証データ収集では,沖縄県の農業生産者データの収集を行った。データは農林水産省及び自治体の統計情報を使用し,統計情報には年度毎に作付け品目,品目毎の作付け面積,収穫量,単価などが含まれており,モデル化が可能な状態となっている。また,空港での搭乗者データを取得し,受付ロビーでの人流とプロファイルデータを元に,基礎的なエージェントベースモデルを構築できた。以上により,本研究の進捗はおおむね順調に進展していると考えている。
|
Strategy for Future Research Activity |
初年度の研究において、学習アルゴリズムによるパラメータ推定手法として、逆強化学習を用いたエージェントモデルのパラメータ推定手法の開発を行った。また、社会・経済制度の実証データの収集を実施した。本年は、これらの成果をベースに、以下の研究を実施する。 1)エージェントベース・データ同化モデルの設計と実装:上記のパラメータ推定手法をエージェントモデルに組み込むことで、ルール推論が可能なエージェントベース・データ同化モデルを構築する。逆強化学習は、観測された多数の実データから意思決定の基礎となる複数のゴールの報酬を推定することができる。この報酬値を用いて、状態価値関数を強化学習することで、エージェントの行動をモデル化できることから、観測データからより精度の高い推定が可能となる。 2)農業生産意思決定モデルの構築:前年度で取得した沖縄県の農業生産額データから、エージェントベース・データ同化モデルを構築する。離島においては、水資源の開発が農業生産に与える影響は大きい。また、飛行場などの整備によって、本土への出荷額も大きく影響される。これらの実データを用いて、農業生産額に影響する農家の意思決定構造をモデル化する。 3)エネルギーシフトを促す電力市場制度設計への適用:理想的な電力市場の姿は、需要家の自由な参加・選択、企業の自由な経済行為によってイノベーションが促進され、自然に全体の電力供給と需要がバランスする集合知としての電力市場である。しかし、本年度から開始された電力小売り自由化政策は、多様な企業の参入によるイノベーションの進展を期待して導入されたものの、その効果を判断する変化はまだ見えていない。そこで、電力市場モデルを構築し、発電事業者がどのような意思決定を行うかを参加型モデルによって同定し、望ましい電力市場制度設計を探索することを実施する。
|