研究分担者 |
谷本 洋 宮崎大学, 教育学部, 助教授 (00179855)
藤井 憲三 宮崎大学, 教育学部, 助教授 (10090549)
宇田 廣文 宮崎大学, 教育学部, 助教授 (50040994)
川野 日郎 宮崎大学, 教育学部, 教授 (20040983)
緒方 明夫 宮崎大学, 教育学部, 教授 (80040921)
|
研究概要 |
平均型ベクトル基準値を持つ多目的有限マルコフ決定過程の問題とは多目的評価値を持つ動的数理計画問題の1つである。割引率を持つマルコフ決定過程問題とよく対比される。R^P_+をPー次元ユ-クリッド空間での非負象限とする。本研究はR^P_+に関する最大化問題(パレ-ト問題)に対する大域的凸最適解の存在と解法について考察した。原点を頂点に持つ閉凸錐の減少系列でR^P_+を含むものをK_0⊃K_1⊃…⊃R^P_+とする。 本研究の第1の目的は大域的凸最適解の存在性を示すことであった。それはK_0を閉半空間や辞書式順序を与える凸錐などに選ぶと,政策改良法によって収束した時に得られる極大解が求めるものであることを示すことにより達せられた。第2の目的は最も一般的な多重マルコフ連鎖の場合へ発展させることであった。それは推移確率行列の余因数行列を用いて,多重連鎖をきっちりといくつかのエルゴ-ド類に小分割することによって得られた。またパレ-ト解は1つの集合を形成するのであるが,そこで最適性の判定にもこれは適用できるなど新しい発見があった。BASICプログラミングによって数値計算例を与えることができた。 第3の目的は多状態多重連鎖をなすベクトル基準値を持つマルコフ決定法が,数理学習認識論におけるパタ-ン認識の問題へと応用することであった。いわゆるボルツマンマシン問題を多重連鎖の場合へと拡張することにより乱画像の復元をもつと改良したい。1〜2のサンプルデ-タをハ-ドディスク上に作成し,手作業でニュ-ロコンピュ-タのボ-ド上で試運転処理してみると,目的に近い結果が得られている。プログラム記述領域の64キロバイトという制約のために,総合運転をなすには到っていない。第1と第2の目的が達せられたので,中間結果としてとりあえず宮崎大学教育学部紀要第72号に英文で投稿する。第3の目的は実験終了し次第報告する。
|