研究課題/領域番号 |
17540121
|
研究機関 | 高知大学 |
研究代表者 |
大坪 義夫 高知大学, 理学部, 教授 (20136360)
|
研究分担者 |
安田 正實 千葉大学, 理学部, 教授 (00041244)
岩本 誠一 九州大学, 大学院・経済学研究院, 教授 (90037284)
野間口 謙太郎 高知大学, 理学部, 教授 (60124806)
|
キーワード | マルコフ決定過程 / 結合型評価関数 / 最適方程式 / 学習アルゴリズム / 不偏推定 |
研究概要 |
研究実施計画の役割分担に従って、下記の研究成果を得た。 (1)研究代表者は、目標集合をもつミニマム型の無限時間決定過程を研究した。再帰クラスを伴うマルコフ決定過程として定式化し、目標集合が吸収的であるとき、最適値関数が最適方程式の一意解であることを示し。最適定常政策の存在を与え、最適政策を求めるために政策改良法を導入した。また、結合型評価関数を伴う確率的最短路問題を定式化し、最適値関数が最適方程式の一意解であることを示し、最適定常政策の存在を示した。これらの成果は論文としてまとめ、発表した。 (2)安田正實は、観測可能だが未知な推移確率をもつ多連鎖マルコフ決定過程において、コミュニケーションの場合に対して利得-罰金型の学習アルゴリズムを発展させ、平均型評価関数に対して、最適政策を構成した。この成果は論文としてまとめ、発表した。 (3)野間口謙太郎は、\sigma^2とaが既知のとき、正規分布N(\theta、\sigma^2)からの確率変数Xを用いた\Phi(a \theta)の不偏推定を考え、lal>1/\sigmaの場合に、その非存在であることを論じた。この成果は論文としてまとめ、発表した。 また、研究代表者は、チェコ国プラハ市で開催された国際会議EURO XXIIで講演発表を行った。
|