研究課題/領域番号 |
18K03343
|
研究機関 | 青山学院大学 |
研究代表者 |
市原 直幸 青山学院大学, 理工学部, 准教授 (70452563)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | マルコフ決定過程 / 割引因子 / ベルマン方程式 |
研究実績の概要 |
本年度は、確率的変分問題の離散版に対応するマルコフ決定過程として、Kullback-Leiblerダイバージェンスを費用関数に持つ有限状態マルコフ決定過程を扱った。具体的には、割引因子と吸収状態を持つ無限期間マルコフ決定過程に対する割引因子消滅極限を考察した。特に、割引因子を限りなく1に近づけたときの値関数の漸近挙動をベルマン方程式と呼ばれる差分方程式の解の言葉で特徴付けるとともに、極限における最適軌道の振る舞いについて詳しく調べた。 得られた成果は以下のとおりである。まず、λが正のときは、値関数は吸収状態を持たない長時間平均型のマルコフ決定過程に対応するベルマン方程式の解に収束することがわかった。次に、λが負のときは、値関数は吸収状態で停止するマルコフ決定過程に対応するベルマン方程式の解に収束することがわかった。また、これら2つの場合とは異なり、λが0のときは値関数は無限大に発散することが示された。特に、λが0の場合については発散する増大度に関する評価式を得た。 これらの結果から、割引因子を限りなく1に近づけたときの値関数の漸近挙動は、対応する長時間平均型のマルコフ決定過程に対する最適値λに大きく依存することがわかった。なお、吸収状態がない場合はλの値に関わらず値関数は長時間平均型のマルコフ決定過程に対応するベルマン方程式の解に収束することが知られており、上記の結果は吸収状態の存在に起因する現象であることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
新型コロナウイルス感染症の世界的流行により、当該年度に実施を予定していた国際共同研究に影響が出たため。
|
今後の研究の推進方策 |
今年度の成果を踏まえて、状態空間がコンパクトでない場合のマルコフ決定過程に対する割引因子消滅極限を考察する。また、連続型の確率的変分問題との共通点や相違点を調べる。
|
次年度使用額が生じた理由 |
新型コロナウイルス感染症の世界的流行により、予定されていた国内外の出張が全てキャンセルされたため。未使用分は次年度における旅費として使用する予定である。
|