2006 Fiscal Year Annual Research Report
柔構造決定過程モデルに関する学習アルゴリズムの研究
Project/Area Number |
18540111
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Chiba University |
Principal Investigator |
蔵野 正美 千葉大学, 教育学部, 教授 (70029487)
|
Co-Investigator(Kenkyū-buntansha) |
安田 正實 千葉大学, 理学部, 教授 (00041244)
中神 潤一 千葉大学, 理学部, 教授 (30092076)
門田 良信 和歌山大学, 教育学部, 教授 (90116294)
吉田 裕治 北九州市立大学, 経済学部, 教授 (90192426)
岩村 覚三 城西大学, 理学部, 講師 (00077918)
|
Keywords | 柔構造決定モデル / マルコフ決定過程 / 学習アルゴリズム / ファジイモデル / ニューロ動的計画法 / 最適適応政策 / 最適方程式 / 強化学習 |
Research Abstract |
柔構造決定モデルの構成及び解析法の理論と学習アルゴリズムについての主な研究成果は次の通りである。 1.柔構造モデルの理論研究について (a)Credibility(可信性)-マルコフ決定過程(Markov Decision Processes MDP)モデルの構成に向けて、ファジイ数学のpossibility及びcredibilityの基礎研究を進めて、構成を可能にするいくつかの知見と見通しを得た。 (b)吸収壁をもつゼロ和セミマルコフゲームに対して一般効用最適方程式を導出して、最適戦略の存在と特徴付けに成功した。これらは数学会(平成19年3月 於埼玉大学)で発表している。 2.多重連鎖MDPについて、時間的差分学習(Temporal Difference-学習,TD-学習)による最適適応政策の構成に成功した。TD-学習による学習アルゴリズムにより値関数(value function)を推測し、ε-強制法により多重性の困難性を克服する適応政策を開発し、数値実験によりその有効性を確認した。 これらの結果は平成19年8月に開催される国際会議(MDAI 2007,於北九州市立大学)で発表する予定である。 3.柔構造モデルの近似解を得るための強化学習アルゴリズムについては、ニューロ動的計画法の種々のモデルに適用可能なTD-法型及びActor-Critic型のアルゴリズムの収束性を検討して、簡単なモデルでの数値実験によりその有効性を比較検討した。また、Howardの有名な自動車取替え問題に適用して学習シミュレーションを実施し、シミュレーションに於けるループの発生、部分解から最適解を見つける可能性などに一定の知見を得た。 その他、本研究に参加した研究者は、本研究の実施計画に基づきそれぞれ一定の成果をおさめ、研究論文として発表している。
|
Research Products
(5 results)