2006 Fiscal Year Annual Research Report

柔構造決定過程モデルに関する学習アルゴリズムの研究

Research Project

Project/Area Number	18540111
Research Category	Grant-in-Aid for Scientific Research (C)
Research Institution	Chiba University
Principal Investigator	蔵野正美千葉大学, 教育学部, 教授 (70029487)
Co-Investigator(Kenkyū-buntansha)	安田正實千葉大学, 理学部, 教授 (00041244) 中神潤一千葉大学, 理学部, 教授 (30092076) 門田良信和歌山大学, 教育学部, 教授 (90116294) 吉田裕治北九州市立大学, 経済学部, 教授 (90192426) 岩村覚三城西大学, 理学部, 講師 (00077918)
Keywords	柔構造決定モデル / マルコフ決定過程 / 学習アルゴリズム / ファジイモデル / ニューロ動的計画法 / 最適適応政策 / 最適方程式 / 強化学習
Research Abstract	柔構造決定モデルの構成及び解析法の理論と学習アルゴリズムについての主な研究成果は次の通りである。 1.柔構造モデルの理論研究について (a)Credibility(可信性)-マルコフ決定過程(Markov Decision Processes MDP)モデルの構成に向けて、ファジイ数学のpossibility及びcredibilityの基礎研究を進めて、構成を可能にするいくつかの知見と見通しを得た。 (b)吸収壁をもつゼロ和セミマルコフゲームに対して一般効用最適方程式を導出して、最適戦略の存在と特徴付けに成功した。これらは数学会(平成19年3月於埼玉大学)で発表している。 2.多重連鎖MDPについて、時間的差分学習(Temporal Difference-学習,TD-学習)による最適適応政策の構成に成功した。TD-学習による学習アルゴリズムにより値関数(value function)を推測し、ε-強制法により多重性の困難性を克服する適応政策を開発し、数値実験によりその有効性を確認した。これらの結果は平成19年8月に開催される国際会議(MDAI 2007,於北九州市立大学)で発表する予定である。 3.柔構造モデルの近似解を得るための強化学習アルゴリズムについては、ニューロ動的計画法の種々のモデルに適用可能なTD-法型及びActor-Critic型のアルゴリズムの収束性を検討して、簡単なモデルでの数値実験によりその有効性を比較検討した。また、Howardの有名な自動車取替え問題に適用して学習シミュレーションを実施し、シミュレーションに於けるループの発生、部分解から最適解を見つける可能性などに一定の知見を得た。その他、本研究に参加した研究者は、本研究の実施計画に基づきそれぞれ一定の成果をおさめ、研究論文として発表している。

Research Products
(5 results)

All 2007 2006 Other

All Journal Article (5 results) (of which Peer Reviewed: 1 results)

[Journal Article] A fuzzy perceptive value for multi-variate stopping problem with a monotone rule2007
- Author(s)
  蔵野正美(共著)
- Journal Title
  
  Bulletin of Informatics and Cybernetics (印刷中)
[Journal Article] A structured pattern matrix algorithm for multichain Markov decision processes2007
- Author(s)
  伊喜哲一郎(共著)
- Journal Title
  
  Mathematical Methods of Operations Research (印刷中)
[Journal Article] A fuzzy approach to Markov decision processes with uncertain transition probabilities2006
- Author(s)
  蔵野正美(共著)
- Journal Title
  
  Fuzzy Sets and Systems 157
  
  Pages: 2674-2682
- Description
  「研究成果報告書概要(和文)」より
- Peer Reviewed
[Journal Article] A new evaluation of mean value for fuzzy numbers and its application to American put option under uncertainty2006
- Author(s)
  吉田祐治(共著)
- Journal Title
  
  Fuzzy Sets and Systems 157
  
  Pages: 2614-2626
[Journal Article] A Learning algorithm for communicating Markov decision processes with unknown transition matrices
- Author(s)
  伊喜哲一郎(共著)
- Journal Title
  
  Bulletin of Informatics and Cybernetics (印刷中)

2006 Fiscal Year Annual Research Report

柔構造決定過程モデルに関する学習アルゴリズムの研究

Principal Investigator

蔵野 正美 千葉大学, 教育学部, 教授 (70029487)

Research Products

[Journal Article] A fuzzy perceptive value for multi-variate stopping problem with a monotone rule2007

Author(s)

Journal Title

[Journal Article] A structured pattern matrix algorithm for multichain Markov decision processes2007

Author(s)

Journal Title

[Journal Article] A fuzzy approach to Markov decision processes with uncertain transition probabilities2006

Author(s)

Journal Title

Description

[Journal Article] A new evaluation of mean value for fuzzy numbers and its application to American put option under uncertainty2006

Author(s)

Journal Title

[Journal Article] A Learning algorithm for communicating Markov decision processes with unknown transition matrices

Author(s)

Journal Title

蔵野正美千葉大学, 教育学部, 教授 (70029487)