研究課題/領域番号 |
11650441
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
制御工学
|
研究機関 | 東北大学 |
研究代表者 |
阿部 健一 東北大学, 大学院・工学研究科, 教授 (70005403)
|
研究分担者 |
本間 経康 東北大学, 医療技術短期大学部, 助教授 (30282023)
|
研究期間 (年度) |
1999 – 2000
|
キーワード | 隠れマルコフ環境 / 強化学習 / Q-学習 / ラベリングQ-学習 / 学習オートマトン / マイッチングQ-学習 / 階層型Q-学習 |
研究概要 |
強化学習(RL:Reinforcement Learning)を部分観測マルコフ(あるいは隠れマルコフ)環境へ適用する場合、環境状態が直接観測できないので、通常のRLに何らかの形でメモリを付加し、過去の観測/行動対の履歴を反映した形でQ値表(Qモジュール)を更新しなければならない。本研究では、ラベリングQ学習(LQ-learning)とスイッチングQ学習(SQ-learning)とを提案し、それらの性能について検討を進め下記の成果を得た。 (1)LQ学習は前回の基盤研究(C)(2)で提案したアルゴリズムである。このアルゴリズムは、観測値に付けるラベルをいつどのような状況(過去の観測系列)で更新するか、ラベルの値をどのように決めるか、の2面において多様な選択肢がある。そこで、LQ学習のより一般的な枠組みを定式化し、その枠組みの中で種々のアルゴリズムを考案し、それらの有効性をシミュレーションにより比較検討した。しかし、このLQ学習では、ラベル機構をあらかじめ設定する必要がある。そこで、その自動化を行なうため、自己組織化マップ(SOM)によりラベリングする方法を提案した。SOMは1次元構造のものを用い、その出力としてラベルが得られる。 (2)スイッチングQ学習(SQ学習)とよぶ、一種の階層形強化学習法を提案した。部分観測マルコフ環境を局所的にはマルコフ環境と見なせる観測空間の部分空間に各Qモジュールを対応させ、環境の全観測空間をパッチワーク状に覆う、ということに基づいた方法である。SQ学習では、Qモジュールをある特徴的な観測値(サブゴール)で切り替える。このサブゴール系列の学習を階層形学習オートマトンによって行う。いわば、メモリ機構の自律的生成を目指した方法である。このアルゴリズムが、LQ学習に比べより規模の大きい問題例において有効に動作することをシミュレーションにより確認した。 なお、LQ学習とSQ学習を統一的に取り扱える強化学習機構を構築することが今後の課題である。
|