研究概要 |
ニューラルネットの学習において訓練サンプルが逐次的に与えられたとき,新しい訓練サンプルの追加学習によって過去に学習した知識を忘却する問題が以前から指摘されている.この問題を解決する方法として,逐次的に学習される入出力関係の中から代表的なものを長期記憶として蓄積し,追加学習時において長期記憶に蓄えられた記憶アイテムを想起・学習することで忘却を抑制する方法を提案している.これまで教師あり学習に対して学習アルゴリズムを提案してきたが,本研究では,まずこれを強化学習に拡張し,報酬が逐次的にしか与えられない状況であっても忘却を抑制し,正しい行動価値関数の学習が行なわれることを示した.この研究成果は国際会議ICONIP2002において発表した.次に,複数の定常環境が次々と移り変わっていく動的環境を想定し,この動的環境の下で過去に経験した環境の知識を想起・学習することで,環境への迅速な適応が可能になる教師あり学習モデルを提案した.この成果は国際シンポジウムHART2002で発表した.なお,環境変動の検知アルゴリズムを改良したモデルを現在提案しており,この性能評価を国際会議IJCNN2003(筆頭著者Tsumori)で発表する予定である.提案している追加学習モデルはニューラルネットを利用したものであるが,その学習アルゴリズムは最急降下法に基づいており,学習スピードが遅いという間題があった.これを改良するため,ニューラルネットの学習を線形方程式の解法に帰着して行なう方法を適用した新しい追加学習方式を提案した.この性能評価を国際会議IJCNN2003(筆頭著者Okamoto)で発表する予定である.現在,備品として購入した小型移動ロボットKheperaに本学習アルゴリズムをインプリメントし,動作を確認しているところである.
|