1991 Fiscal Year Annual Research Report

平均型ベクトル基準値を持つ多目的マルコフ決定過程の凸最適解の研究

Research Project

Project/Area Number	03640224
Research Institution	University of Miyazaki
Principal Investigator	伊喜哲一郎宮崎大学, 教育学部, 助教授 (80041010)
Co-Investigator(Kenkyū-buntansha)	谷本洋宮崎大学, 教育学部, 助教授 (00179855) 藤井憲三宮崎大学, 教育学部, 助教授 (10090549) 宇田廣文宮崎大学, 教育学部, 助教授 (50040994) 川野日郎宮崎大学, 教育学部, 教授 (20040983) 緒方明夫宮崎大学, 教育学部, 教授 (80040921)
Keywords	Markov Decision / Average Reward / VectorーValued / Dynamic Programming / Pareto Optimal / Convex Cone
Research Abstract	平均型ベクトル基準値を持つ多目的有限マルコフ決定過程の問題とは多目的評価値を持つ動的数理計画問題の1つである。割引率を持つマルコフ決定過程問題とよく対比される。R^P_+をPー次元ユ-クリッド空間での非負象限とする。本研究はR^P_+に関する最大化問題(パレ-ト問題)に対する大域的凸最適解の存在と解法について考察した。原点を頂点に持つ閉凸錐の減少系列でR^P_+を含むものをK_0⊃K_1⊃…⊃R^P_+とする。本研究の第1の目的は大域的凸最適解の存在性を示すことであった。それはK_0を閉半空間や辞書式順序を与える凸錐などに選ぶと,政策改良法によって収束した時に得られる極大解が求めるものであることを示すことにより達せられた。第2の目的は最も一般的な多重マルコフ連鎖の場合へ発展させることであった。それは推移確率行列の余因数行列を用いて,多重連鎖をきっちりといくつかのエルゴ-ド類に小分割することによって得られた。またパレ-ト解は1つの集合を形成するのであるが,そこで最適性の判定にもこれは適用できるなど新しい発見があった。BASICプログラミングによって数値計算例を与えることができた。第3の目的は多状態多重連鎖をなすベクトル基準値を持つマルコフ決定法が,数理学習認識論におけるパタ-ン認識の問題へと応用することであった。いわゆるボルツマンマシン問題を多重連鎖の場合へと拡張することにより乱画像の復元をもつと改良したい。1〜2のサンプルデ-タをハ-ドディスク上に作成し,手作業でニュ-ロコンピュ-タのボ-ド上で試運転処理してみると,目的に近い結果が得られている。プログラム記述領域の64キロバイトという制約のために,総合運転をなすには到っていない。第1と第2の目的が達せられたので,中間結果としてとりあえず宮崎大学教育学部紀要第72号に英文で投稿する。第3の目的は実験終了し次第報告する。

Research Products
(1 results)

All Publications (1 results)

[Publications] Tetsuichiro IKI: "VectorーValued Finite Markov Decision Process with Averaged Type Reward" 宮崎大学教育学部紀要. 第72号. (1994)