2011 Fiscal Year Research-status Report
時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索
Project/Area Number |
23500245
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 大分大学, 工学部, 准教授 (10260522)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 強化学習 / リカレントニューラルネット / 時間軸 / 微分型トレース / 概念形成 / コミュニケーション / 自律学習 / 知能創発 |
Research Abstract |
まず,時間に対してフラットに学習して行く従来の方法に対し,状況に変化が起きた時の入力を保持することで効率的に学習する方法として微分型トレースを考案し,それをニューラルネットで学習する場合に,時間をさかのぼることなく実時間で計算をするためのアルゴリズムを導出した。その後,簡単な迷路問題に適用することで,学習初期のニューロンの値の変化が小さいときに全体的にトレースの取り込みが小さいこと,ゴール直前の評価が上がりにくいこと,さらには,試行開始時のトレースの初期値をどのように設定するかという問題点があることを明らかにした。これに対して,従来の適格度トレースと併用することを中心に,解決方法を考えた。 時系列の連続値センサ入力に対し,学習によって離散的な状態へ分節化することについては,2つの部屋からなり,ボタンを押すと扉が開き,扉の向こうに新たに出現した部屋に移動すると報酬がもらえる環境を計算機上に作成し,リカレントニューラルネットを用いた強化学習によって,扉が開く位置によらず適切な行動を学習することができるようになった。 また,状態の分節化および遷移を促進するための方法として,リカレントネットの初期重み値の与え方を変えてカウンタタスクの教師あり学習に適用したが,中間層ニューロンの単調な変化によって状態遷移を表現できても,増加と減少がともに起こるような状態遷移の表現を学習することは困難であった。そこで,従来広く使われて来た入力の重み付け総和を非線形変換して出力を得る静的ニューロンに代わり,微分方程式に基づく動的ニューロンの導入を試みたが,今のところ効果は観察できていない。しかし,外部からの信号によらず,リカレントネット内部で順次状態が遷移し自励振動させる重み値を探ったので,次年度以降,それを参考にして,外部信号によって状態遷移するようなダイナミクスの学習による獲得を加速させたい。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
微分型トレースに関しては,簡単な迷路問題でその効果を確認する予定であった。実際に学習させてみることで,(1)学習初期のニューロンの値の変化が小さいときにトレースの取り込みが小さいこと,(2)ゴール直前の評価が上がりにくいこと,さらには,(3)試行開始時のトレースの初期値をどのように設定するかという3つの問題点があることを明らかにし,解決方法を考案したが,まだ解決方法の効果の確認までは至っていない。しかし,問題点を明らかにし,解決方法まで考案することまでできたのでおおむね予定通りと考えている。 状態の分節化の学習による獲得に関しては,STDPおよび掛け算ニューロンの導入は行っていないものの,リカレントネット内でダイナミクスの検討をある程度進めることはできた。また,実施計画では触れていなかったこととして,複数の「部屋」環境での行動学習をシミュレーションによって問題点を解決しながら進めることができたことと,さらに,リカレントニューラルネット内部での状態遷移の加速のヒントとなる自励振動生成の条件に関する調査を行うことができたので,こちらもおおむね予定通りと考えている。 しかし,実験環境の整備については,ロボットとロボットシミュレータWebotsを購入したもの,自分で構築した簡単な環境でのシミュレーションを重点的に行ったため,まだ実験環境の整備およびシミュレータを使いこなすことはできていない状況である。 一方,コミュニケーションにおける動詞表現の学習による獲得に関しても,その他の項目の研究項目に時間と人員を費やしたため,ほとんど進んでいない状況である。 以上より,特に後半2点から,達成度については「遅れている」状況であると考えている。
|
Strategy for Future Research Activity |
微分型トレースについては,(1)学習初期のトレースの取り込みが小さいこと,(2)ゴール直前の評価が上がりにくいこと,さらには,(3)試行開始時のトレースの初期値の設定をどうするかという3つの問題点のうち,(1)と(2)に関しては,従来型の適格度トレースを併用することで解決を試みる。さらに,(3)については,試行開始前に各ニューロンがその値域の中間の値からスタートしたと仮定し,トレースの初期値を0として試行を開始する方法を検証する。 状態の分節化の学習による獲得に関しては,ボタンを押して新しい部屋に行くタスクの学習後のリカレントネットの中間層を観察し,新しい部屋が出現することによって部屋の位置によらず出力が変化するニューロンが発現しているかどうかを確認する。確認できたら,部屋数を増やし,部屋間を探索することで,それぞれの部屋の表現ができるかどうかを確かめ,ボタンと扉の存在がそういうニューロンを発現させる原動力になっているかどうかを探る。購入したロボットシミュレータWebotsを用いることで,より実環境に近い入力を与えて学習させ,状況を見て実験の環境を整える。部屋を表現するニューロンの発現が確認できない場合は,状態評価,行動の変化の両面からその原因を探る。 一方,前年度の動的ニューロンモデル導入時の自励振動の条件に関する調査結果に基づき,離散的状態遷移を加速するためのリカレントネットの構造,初期重み値を考案し,その効果をカウンタタスクで確認した後,複数の入力の組み合わせで状態遷移をさせるより複雑なタスクで検証し,十分に有効性が確認できたら,複数の部屋タスクへ導入する。 動詞表現獲得の学習は,まずはシミュレーションで送信者,受信者とも教師あり学習で学習できることを確認した後,強化学習による動詞表現のコミュニケーションの獲得に移行していく。それができたら,実機を使って学習させる。
|
Expenditure Plans for the Next FY Research Funding |
次年度は,計算機性能の向上に合わせてシミュレーション用の高速計算可能な計算機を逐次購入し,さらに,複数の「部屋」環境の構築のために用いる諸材料を購入する。さらに,研究成果を発表するために,国内外の学会(国外2回,国内2回程度で研究協力者の分も含む)への出張旅費として用いる計画である。
|
Research Products
(8 results)