2011 Fiscal Year Research-status Report

時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索

Research Project

Project/Area Number	23500245
Research Institution	Oita University
Principal Investigator	柴田克成大分大学, 工学部, 准教授 (10260522)
Project Period (FY)	2011-04-28 – 2014-03-31
Keywords	強化学習 / リカレントニューラルネット / 時間軸 / 微分型トレース / 概念形成 / コミュニケーション / 自律学習 / 知能創発
Research Abstract	まず，時間に対してフラットに学習して行く従来の方法に対し，状況に変化が起きた時の入力を保持することで効率的に学習する方法として微分型トレースを考案し，それをニューラルネットで学習する場合に，時間をさかのぼることなく実時間で計算をするためのアルゴリズムを導出した。その後，簡単な迷路問題に適用することで，学習初期のニューロンの値の変化が小さいときに全体的にトレースの取り込みが小さいこと，ゴール直前の評価が上がりにくいこと，さらには，試行開始時のトレースの初期値をどのように設定するかという問題点があることを明らかにした。これに対して，従来の適格度トレースと併用することを中心に，解決方法を考えた。　時系列の連続値センサ入力に対し，学習によって離散的な状態へ分節化することについては，２つの部屋からなり，ボタンを押すと扉が開き，扉の向こうに新たに出現した部屋に移動すると報酬がもらえる環境を計算機上に作成し，リカレントニューラルネットを用いた強化学習によって，扉が開く位置によらず適切な行動を学習することができるようになった。　また，状態の分節化および遷移を促進するための方法として，リカレントネットの初期重み値の与え方を変えてカウンタタスクの教師あり学習に適用したが，中間層ニューロンの単調な変化によって状態遷移を表現できても，増加と減少がともに起こるような状態遷移の表現を学習することは困難であった。そこで，従来広く使われて来た入力の重み付け総和を非線形変換して出力を得る静的ニューロンに代わり，微分方程式に基づく動的ニューロンの導入を試みたが，今のところ効果は観察できていない。しかし，外部からの信号によらず，リカレントネット内部で順次状態が遷移し自励振動させる重み値を探ったので，次年度以降，それを参考にして，外部信号によって状態遷移するようなダイナミクスの学習による獲得を加速させたい。
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 微分型トレースに関しては，簡単な迷路問題でその効果を確認する予定であった。実際に学習させてみることで，(1)学習初期のニューロンの値の変化が小さいときにトレースの取り込みが小さいこと，(2)ゴール直前の評価が上がりにくいこと，さらには，(3)試行開始時のトレースの初期値をどのように設定するかという３つの問題点があることを明らかにし，解決方法を考案したが，まだ解決方法の効果の確認までは至っていない。しかし，問題点を明らかにし，解決方法まで考案することまでできたのでおおむね予定通りと考えている。　状態の分節化の学習による獲得に関しては，STDPおよび掛け算ニューロンの導入は行っていないものの，リカレントネット内でダイナミクスの検討をある程度進めることはできた。また，実施計画では触れていなかったこととして，複数の「部屋」環境での行動学習をシミュレーションによって問題点を解決しながら進めることができたことと，さらに，リカレントニューラルネット内部での状態遷移の加速のヒントとなる自励振動生成の条件に関する調査を行うことができたので，こちらもおおむね予定通りと考えている。　しかし，実験環境の整備については，ロボットとロボットシミュレータWebotsを購入したもの，自分で構築した簡単な環境でのシミュレーションを重点的に行ったため，まだ実験環境の整備およびシミュレータを使いこなすことはできていない状況である。　一方，コミュニケーションにおける動詞表現の学習による獲得に関しても，その他の項目の研究項目に時間と人員を費やしたため，ほとんど進んでいない状況である。　以上より，特に後半２点から，達成度については「遅れている」状況であると考えている。
Strategy for Future Research Activity	微分型トレースについては，(1)学習初期のトレースの取り込みが小さいこと，(2)ゴール直前の評価が上がりにくいこと，さらには，(3)試行開始時のトレースの初期値の設定をどうするかという３つの問題点のうち，(1)と(2)に関しては，従来型の適格度トレースを併用することで解決を試みる。さらに，(3)については，試行開始前に各ニューロンがその値域の中間の値からスタートしたと仮定し，トレースの初期値を0として試行を開始する方法を検証する。　状態の分節化の学習による獲得に関しては，ボタンを押して新しい部屋に行くタスクの学習後のリカレントネットの中間層を観察し，新しい部屋が出現することによって部屋の位置によらず出力が変化するニューロンが発現しているかどうかを確認する。確認できたら，部屋数を増やし，部屋間を探索することで，それぞれの部屋の表現ができるかどうかを確かめ，ボタンと扉の存在がそういうニューロンを発現させる原動力になっているかどうかを探る。購入したロボットシミュレータWebotsを用いることで，より実環境に近い入力を与えて学習させ，状況を見て実験の環境を整える。部屋を表現するニューロンの発現が確認できない場合は，状態評価，行動の変化の両面からその原因を探る。　一方，前年度の動的ニューロンモデル導入時の自励振動の条件に関する調査結果に基づき，離散的状態遷移を加速するためのリカレントネットの構造，初期重み値を考案し，その効果をカウンタタスクで確認した後，複数の入力の組み合わせで状態遷移をさせるより複雑なタスクで検証し，十分に有効性が確認できたら，複数の部屋タスクへ導入する。　動詞表現獲得の学習は，まずはシミュレーションで送信者，受信者とも教師あり学習で学習できることを確認した後，強化学習による動詞表現のコミュニケーションの獲得に移行していく。それができたら，実機を使って学習させる。
Expenditure Plans for the Next FY Research Funding	次年度は，計算機性能の向上に合わせてシミュレーション用の高速計算可能な計算機を逐次購入し，さらに，複数の「部屋」環境の構築のために用いる諸材料を購入する。さらに，研究成果を発表するために，国内外の学会（国外２回，国内２回程度で研究協力者の分も含む）への出張旅費として用いる計画である。

Research Products
(8 results)

All 2011

All Journal Article (7 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] Discovery of Pattern Meaning from Delayed ...2011
- Author(s)
  Katsunari Shibata & Hiroki Utsunomiya
- Journal Title
  
  Proc. of Int'l Joint Conf. on Neural Networks 2011
  
  Volume: - Pages: 1445-1452
- Peer Reviewed
[Journal Article] Discount and Speed/Execution tradeoffs in ...2011
- Author(s)
  R. Uribe, F. Lozanom, K. Shibata & C. Anderson
- Journal Title
  
  Proc. of IEEE Conf. on CIG 2011
  
  Volume: - Pages: 79-86
- Peer Reviewed
[Journal Article] Emergence of Purposive and Grounded ...2011
- Author(s)
  Katsunari Shibata and Kazuki Sasahara
- Journal Title
  
  LNCS(Lecture Notes in Computer Science)
  
  Volume: Vol. 7064 Pages: 66-75
- Peer Reviewed
[Journal Article] リカレントネットを用いた強化学習による探索行動と多値記憶の創発2011
- Author(s)
  柴田克成, 後藤健太
- Journal Title
  
  電子情報通信学会技術報告
  
  Volume: - Pages: NC2011-134
[Journal Article] Context-based Word Recognition through ...2011
- Author(s)
  Ahmad Afif Mohd Faudzi & Katsunari Shibata
- Journal Title
  
  第30回SICE九州支部学術講演会予稿集
  
  Volume: - Pages: 155-158
[Journal Article] 画像を入力とするニューラルネットの学習における方位選択性入力の付加2011
- Author(s)
  沢津橋由人, 柴田克成
- Journal Title
  
  第30回SICE九州支部学術講演会予稿集
  
  Volume: - Pages: 151-154
[Journal Article] リカレントネットによる内部状態遷移を要する問題学習時の初期重み値の影響2011
- Author(s)
  田口優馬, 柴田克成
- Journal Title
  
  第30回SICE九州支部学術講演会予稿集
  
  Volume: - Pages: 87-90
[Presentation] あめとむちで知能を作る？　ー知能ロボットって...2011
- Author(s)
  柴田克成
- Organizer
  SOFT九州支部夏季ワークショップ2011(招待講演)
- Place of Presentation
  熊本県玉名市
- Year and Date
  2011年９月1日

2011 Fiscal Year Research-status Report

時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索

Principal Investigator

柴田 克成 大分大学, 工学部, 准教授 (10260522)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Discovery of Pattern Meaning from Delayed ...2011

Author(s)

Journal Title

[Journal Article] Discount and Speed/Execution tradeoffs in ...2011

Author(s)

Journal Title

[Journal Article] Emergence of Purposive and Grounded ...2011

Author(s)

Journal Title

[Journal Article] リカレントネットを用いた強化学習による探索行動と多値記憶の創発2011

Author(s)

Journal Title

[Journal Article] Context-based Word Recognition through ...2011

Author(s)

Journal Title

[Journal Article] 画像を入力とするニューラルネットの学習における方位選択性入力の付加2011

Author(s)

Journal Title

[Journal Article] リカレントネットによる内部状態遷移を要する問題学習時の初期重み値の影響2011

Author(s)

Journal Title

[Presentation] あめとむちで知能を作る？ ー知能ロボットって...2011

Author(s)

Organizer

Place of Presentation

Year and Date

柴田克成大分大学, 工学部, 准教授 (10260522)

[Presentation] あめとむちで知能を作る？　ー知能ロボットって...2011