2012 Fiscal Year Research-status Report

時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索

Research Project

Project/Area Number	23500245
Research Institution	Oita University
Principal Investigator	柴田克成大分大学, 工学部, 准教授 (10260522)
Keywords	知能創発 / ロボット / シンボル処理創発 / 強化学習 / リカレントニューラルネット / 微分型トレース / 時間軸調整 / 動詞表現獲得
Research Abstract	ニューラルネットにおける各ニューロンの出力変化の大きさに応じて入力を保持して，過去の状態に対して効率的に価値関数の学習を行う微分型トレースについて，学習初期の学習速度が遅いという問題点およびトレースの初期値の与え方をどうするかという２つの問題点に対し，過去の出力変化と現在の出力変化の相対的な関係に基づいて入力信号を取り込む割合を変化させる方法，および，試行開始時に，入力の総和が0の場合の出力からの変化量に基づいて入力信号を取り込む方法を導入した。そして，100ステップかけて通過できる状態が100個１次元に配置された簡単な環境で価値関数の学習をさせ，微分型トレースが，適格度トレースに比べて効率的に学習ができることを示すことができた。一方，時系列の連続値センサ入力に対し,学習によって「部屋」「廊下」などの離散的な状態へ分節化することについては，複数の部屋移動タスクにおいて，部屋の中の壁やボタンまでの距離の情報を入力として与え，ボタンを押すと周りのドアの１つがランダムに開き，さらにその部屋に移動してボタンを押すと再び周りのドアの１つがランダムに開くという流れを繰り返し，４つめの部屋に到達すると報酬がもらえる環境を計算機上に構築し，学習を試みた。そして，ドアの開き方によらずゴールに到達できることを確認するとともに，中間層に，開くドアの方向によらず，ドアが開いて新しい部屋が出現する前と後を離散的に区別するニューロンが発現することを確認した。これは，連続値入力信号から「部屋」という単位を切り出すことにつながる成果であると考えている。また，コミュニケーションにおける動詞表現の獲得については，コミュニケーションを行う前段階として，画像から物体の動きを認識することができるかどうかを確認したところ，画像サイズが大きくなると認識が難しくなるという問題があることが判明した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 時間軸の調整を行う微分型トレースについては，状態価値の学習のみで行動の学習は含んでいないものの，従来良く用いられている適格度トレースに対する優位性を示すことができたこと，そして，「主観的な時間軸」の形成とその利用という今後への大きな可能性を示すことができ，２３年度から比べて大きく達成度は挽回できた。多数の部屋からなる環境での学習は，計算機シミュレーションで行い，比較的複雑な環境での学習の確認と離散的な状態表現の出現を確認でき，大きな成果を得たが，実際のロボットと多数の部屋からなる学習実験環境の構築は進んでいない。それから，コミュニケーション学習における動詞表現の獲得に関する研究および実験環境の構築も，まだ前段階である動きの認識の学習で問題点が見つかり，その解決に時間がかかっており，予定していた成果は得られていない状況である。以上のように，予定通りに進んでいるところとそうでないところがあることを総合的に考慮し，「やや遅れている」と判断した。
Strategy for Future Research Activity	微分型トレースについては，最終年度に，行動の学習も含めた場合の有効性を検証することを最大の目的とする。そして，「主観的な時間軸」という観点から，今後大きく発展して行く可能性が大きいことから，同じくニューロンの出力の時間微分を用いて入力信号を取り込む手法を用いているリカレントニューラルネットの学習方法であるPRL法との融合等，今後への展開を考えて行く。離散的な状態表現については，ロボットシミュレータWebotsを試用して使えそうなことから，環境構築や更新の容易性を考慮し，実ロボットでの実験からシミュレータを用いた実験に方向を転換する。そして，部屋の移動タスクにおいて，簡単な視覚センサ信号を入力として与えて学習させるだけで，離散的な状態表現が創発するかどうかを検証する。また，コミュニケーション学習については，前段階である画像から物体の動きの認識学習で出た問題に対し，カメラを動かすことを合わせて学習させる。シミュレーションで学習できることを確認した後，xyテーブルを用いてカメラを動かすシステムを構築し，認識の学習を行う予定である。合わせて，シミュレーションで，動詞表現の獲得が学習できるかを検証するが，時間的に考えて，実ロボットを用いた実験での動詞表現の獲得の実現はかなり厳しい状況である。
Expenditure Plans for the Next FY Research Funding	本年度は，複数の部屋からなる環境の構築ができず，次年度に使用することとした。コミュニケーション学習システムでは，すでにxyテーブルを別予算にて購入したため，後はその他の組み立て用の機材等の購入をする予定である。また，研究の進展からの必要に応じて，ロボットシミュレータの追加ライセンスを購入する。さらに，シミュレーションおよびデータ処理のためのPCを購入するとともに，成果発表のための国内外の学会(国外2回,国内2回程度で研究協力者の分も含む)への出張旅費として主として使用していく予定である。

Research Products
(16 results)

All 2013 2012

All Journal Article (8 results) (of which Peer Reviewed: 3 results) Presentation (8 results)

[Journal Article] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013
- Author(s)
  柴田克成, 栗崎俊介
- Journal Title
  
  電子情報通信学会技術報告
  
  Volume: NC2012-134 - NC2012-182 Pages: 215-220
[Journal Article] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012
- Author(s)
  Katsunari Shibata and Shunsuke Kurizaki
- Journal Title
  
  Proc. of ICDL-EpiRob (Int'l Conf. on Development and Learning- Epigenetic Robotics)
- DOI
  10.1109/DevLrn.2012.6400580
[Journal Article] Differential Trace in Learning of Value Function with a Neural Network2012
- Author(s)
  Katsunari Shibata and Shuji Enoki
- Journal Title
  
  Advances in Intelligent Systems and Computing, Robot Intelligence Technology and Applications 2012, Proc. of RiTA 2012
  
  Volume: 1 Pages: 55-64
- Peer Reviewed
[Journal Article] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012
- Author(s)
  Yoshito Sawatsubashi, Mohamad Faizal bin Samsudin and Katsunari Shibata
- Journal Title
  
  Advances in Intelligent Systems and Computing, Robot Intelligence Technology and Applications 2012, Proc. of RiTA 2012
  
  Volume: 1 Pages: 13-22
- Peer Reviewed
[Journal Article] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012
- Author(s)
  Mohamad Faizal bin Samsudin, Yoshito Sawatsubashi and Katsunari Shibata
- Journal Title
  
  LNCS(Lecture Notes in Computer Science), Neural Information Processing, Proc. of ICONIP2012
  
  Volume: 1 Pages: 583-590
- Peer Reviewed
[Journal Article] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012
- Author(s)
  柴田克成, 笹原冬月
- Journal Title
  
  計測自動制御学会システム・情報部門学術講演会講演論文集
  
  Volume: 1 Pages: 390-395
[Journal Article] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012
- Author(s)
  榎修志, 柴田克成
- Journal Title
  
  計測自動制御学会システム・情報部門学術講演会講演論文集
  
  Volume: 1 Pages: 396-401
[Journal Article] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012
- Author(s)
  沢津橋由人, Mohamad Faizal Bin Samusudin, 柴田克成
- Journal Title
  
  計測自動制御学会システム・情報部門学術講演会講演論文集
  
  Volume: 1 Pages: 402-407
[Presentation] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013
- Author(s)
  ○柴田克成, 栗崎俊介
- Organizer
  電子情報通信学会ニューロコンピューティング研究会
- Place of Presentation
  東京都町田市
- Year and Date
  20130313-20130315
[Presentation] Differential Trace in Learning of Value Function with a Neural Network2012
- Author(s)
  Katsunari Shibata and ○Shuji Enoki
- Organizer
  RiTA (Robot Intelligent Technology and Applications) 2012
- Place of Presentation
  光州（韓国）
- Year and Date
  20121216-20121218
[Presentation] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012
- Author(s)
  ○Yoshito Sawatsubashi, Mohamad Faizal bin Samsudin and Katsunari Shibata
- Organizer
  RiTA (Robot Intelligent Technology and Applications) 2012
- Place of Presentation
  光州（韓国）
- Year and Date
  20121216-20121216
[Presentation] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012
- Author(s)
  ○柴田克成, 笹原冬月
- Organizer
  計測自動制御学会システム・情報部門学術講演会
- Place of Presentation
  名古屋市
- Year and Date
  20121121-20121123
[Presentation] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012
- Author(s)
  ○榎修志, 柴田克成
- Organizer
  計測自動制御学会システム・情報部門学術講演会
- Place of Presentation
  名古屋市
- Year and Date
  20121121-20121123
[Presentation] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012
- Author(s)
  ○沢津橋由人, Mohamad Faizal Bin Samusudin, 柴田克成
- Organizer
  計測自動制御学会システム・情報部門学術講演会
- Place of Presentation
  名古屋市
- Year and Date
  20121121-20121123
[Presentation] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012
- Author(s)
  ○Mohamad Faizal bin Samsudin, Yoshito Sawatsubashi and Katsunari Shibata
- Organizer
  ICONIP (Int'l Conf. on Neural Information Processing Systems) 2012
- Place of Presentation
  Doha (Qatar)
- Year and Date
  20121112-20121115
[Presentation] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012
- Author(s)
  ○Katsunari Shibata and Shunsuke Kurizaki
- Organizer
  Proc. of ICDL-EpiRob (Int'l Conf. on Development and Learning - Epigenetic Robotics) 2012
- Place of Presentation
  San Diego (USA)
- Year and Date
  20121107-20121109

2012 Fiscal Year Research-status Report

時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索

Principal Investigator

柴田 克成 大分大学, 工学部, 准教授 (10260522)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013

Author(s)

Journal Title

[Journal Article] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012

Author(s)

Journal Title

DOI

[Journal Article] Differential Trace in Learning of Value Function with a Neural Network2012

Author(s)

Journal Title

[Journal Article] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012

Author(s)

Journal Title

[Journal Article] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012

Author(s)

Journal Title

[Journal Article] 強化学習による 合目的的かつ接地した一方向コミュニケーションの創発2012

Author(s)

Journal Title

[Journal Article] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012

Author(s)

Journal Title

[Journal Article] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012

Author(s)

Journal Title

[Presentation] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Differential Trace in Learning of Value Function with a Neural Network2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 強化学習による 合目的的かつ接地した一方向コミュニケーションの創発2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012

Author(s)

Organizer

Place of Presentation

Year and Date

柴田克成大分大学, 工学部, 准教授 (10260522)

[Journal Article] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012

[Presentation] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012