統合的学習による不完全領域理論の逐次的洗練化

Research Project

Project/Area Number	05213202
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)
Co-Investigator(Kenkyū-buntansha)	山村雅幸東京工業大学, 大学院・総合理工学研究科, 助手 (00220442)
Project Period (FY)	1991 – 1993
Project Status	Completed (Fiscal Year 1993)
Budget Amount *help	¥1,300,000 (Direct Cost: ¥1,300,000) Fiscal Year 1993: ¥1,300,000 (Direct Cost: ¥1,300,000)
Keywords	遺伝的アルゴリズム / 巡回セールスマン問題 / ジョブショップスケジューリング問題 / 部分順序交換交叉 / ポートフォリオ選択問題 / 強化学習 / 環境同定型学習 / 経験強化型学習
Research Abstract	当該年度の研究成果はつぎのように要約される. (1)遺伝的アルゴリズムによる組み合わせ的最適化遺伝的アルゴリズムが潜在的にもつバランスの取れた探索能力を引き出すためには,コード化と交叉の設計が重要であるとの立場から,巡回セールスマン問題やスケジューリング問題などの順序づけ問題に対し汎用的に使える交叉方法として部分順序交換交叉を提案した.Fisher & Thompsonの10×10問題に適用し,非常に高い確率で最適解が導けることを示した. また,ポートフォリオ選択問題を対象に遺伝的アルゴリズムによるモデル化を試みて,2次計画法で得られる厳密解に十分近い近似解を導けることを示した.さらに,有効フロンティアを効率よく求める方法を提案した. (2)強化学習のモデルについて強化学習のモデルは環境同定型と経験強化型の2つに類別される.状態変数が離散的で状態遷移がマルコフ的な場合について,profit sharingと呼ばれる経験強化型学習における強化関数の最適性を理論的に解析した.また環境同定型学習法としてk確実探査法と呼ぶ新しい方式を提案し,その有効性を明らかにした. また,状態空間が連続で状態遷移がマルコフ的な場合について,割引き勾配法と呼ぶ学習アルゴリズムを提案し,いくつかの実験により,Q-learningに比べて効率的かつ安定な挙動を示すことを確認した.