2006 年度実績報告書

柔構造決定過程モデルに関する学習アルゴリズムの研究

研究課題

研究課題/領域番号	18540111
研究種目	基盤研究(C)
研究機関	千葉大学
研究代表者	蔵野正美千葉大学, 教育学部, 教授 (70029487)
研究分担者	安田正實千葉大学, 理学部, 教授 (00041244) 中神潤一千葉大学, 理学部, 教授 (30092076) 門田良信和歌山大学, 教育学部, 教授 (90116294) 吉田裕治北九州市立大学, 経済学部, 教授 (90192426) 岩村覚三城西大学, 理学部, 講師 (00077918)
キーワード	柔構造決定モデル / マルコフ決定過程 / 学習アルゴリズム / ファジイモデル / ニューロ動的計画法 / 最適適応政策 / 最適方程式 / 強化学習
研究概要	柔構造決定モデルの構成及び解析法の理論と学習アルゴリズムについての主な研究成果は次の通りである。 1.柔構造モデルの理論研究について (a)Credibility(可信性)-マルコフ決定過程(Markov Decision Processes MDP)モデルの構成に向けて、ファジイ数学のpossibility及びcredibilityの基礎研究を進めて、構成を可能にするいくつかの知見と見通しを得た。 (b)吸収壁をもつゼロ和セミマルコフゲームに対して一般効用最適方程式を導出して、最適戦略の存在と特徴付けに成功した。これらは数学会(平成19年3月於埼玉大学)で発表している。 2.多重連鎖MDPについて、時間的差分学習(Temporal Difference-学習,TD-学習)による最適適応政策の構成に成功した。TD-学習による学習アルゴリズムにより値関数(value function)を推測し、ε-強制法により多重性の困難性を克服する適応政策を開発し、数値実験によりその有効性を確認した。これらの結果は平成19年8月に開催される国際会議(MDAI 2007,於北九州市立大学)で発表する予定である。 3.柔構造モデルの近似解を得るための強化学習アルゴリズムについては、ニューロ動的計画法の種々のモデルに適用可能なTD-法型及びActor-Critic型のアルゴリズムの収束性を検討して、簡単なモデルでの数値実験によりその有効性を比較検討した。また、Howardの有名な自動車取替え問題に適用して学習シミュレーションを実施し、シミュレーションに於けるループの発生、部分解から最適解を見つける可能性などに一定の知見を得た。その他、本研究に参加した研究者は、本研究の実施計画に基づきそれぞれ一定の成果をおさめ、研究論文として発表している。

研究成果
(5件)

すべて 2007 2006 その他

すべて雑誌論文 (5件) (うち査読あり 1件)

[雑誌論文] A fuzzy perceptive value for multi-variate stopping problem with a monotone rule2007
- 著者名/発表者名
  蔵野正美(共著)
- 雑誌名
  
  Bulletin of Informatics and Cybernetics (印刷中)
[雑誌論文] A structured pattern matrix algorithm for multichain Markov decision processes2007
- 著者名/発表者名
  伊喜哲一郎(共著)
- 雑誌名
  
  Mathematical Methods of Operations Research (印刷中)
[雑誌論文] A fuzzy approach to Markov decision processes with uncertain transition probabilities2006
- 著者名/発表者名
  蔵野正美(共著)
- 雑誌名
  
  Fuzzy Sets and Systems 157
  
  ページ: 2674-2682
- 説明
  「研究成果報告書概要(和文)」より
- 査読あり
[雑誌論文] A new evaluation of mean value for fuzzy numbers and its application to American put option under uncertainty2006
- 著者名/発表者名
  吉田祐治(共著)
- 雑誌名
  
  Fuzzy Sets and Systems 157
  
  ページ: 2614-2626
[雑誌論文] A Learning algorithm for communicating Markov decision processes with unknown transition matrices
- 著者名/発表者名
  伊喜哲一郎(共著)
- 雑誌名
  
  Bulletin of Informatics and Cybernetics (印刷中)

2006 年度 実績報告書

柔構造決定過程モデルに関する学習アルゴリズムの研究

研究代表者

蔵野 正美 千葉大学, 教育学部, 教授 (70029487)

研究成果

[雑誌論文] A fuzzy perceptive value for multi-variate stopping problem with a monotone rule2007

著者名/発表者名

雑誌名

[雑誌論文] A structured pattern matrix algorithm for multichain Markov decision processes2007

著者名/発表者名

雑誌名

[雑誌論文] A fuzzy approach to Markov decision processes with uncertain transition probabilities2006

著者名/発表者名

雑誌名

説明

[雑誌論文] A new evaluation of mean value for fuzzy numbers and its application to American put option under uncertainty2006

著者名/発表者名

雑誌名

[雑誌論文] A Learning algorithm for communicating Markov decision processes with unknown transition matrices

著者名/発表者名

雑誌名

2006 年度実績報告書

蔵野正美千葉大学, 教育学部, 教授 (70029487)