2012 年度実施状況報告書

時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索

研究課題

研究課題/領域番号	23500245
研究機関	大分大学
研究代表者	柴田克成大分大学, 工学部, 准教授 (10260522)
キーワード	知能創発 / ロボット / シンボル処理創発 / 強化学習 / リカレントニューラルネット / 微分型トレース / 時間軸調整 / 動詞表現獲得
研究概要	ニューラルネットにおける各ニューロンの出力変化の大きさに応じて入力を保持して，過去の状態に対して効率的に価値関数の学習を行う微分型トレースについて，学習初期の学習速度が遅いという問題点およびトレースの初期値の与え方をどうするかという２つの問題点に対し，過去の出力変化と現在の出力変化の相対的な関係に基づいて入力信号を取り込む割合を変化させる方法，および，試行開始時に，入力の総和が0の場合の出力からの変化量に基づいて入力信号を取り込む方法を導入した。そして，100ステップかけて通過できる状態が100個１次元に配置された簡単な環境で価値関数の学習をさせ，微分型トレースが，適格度トレースに比べて効率的に学習ができることを示すことができた。一方，時系列の連続値センサ入力に対し,学習によって「部屋」「廊下」などの離散的な状態へ分節化することについては，複数の部屋移動タスクにおいて，部屋の中の壁やボタンまでの距離の情報を入力として与え，ボタンを押すと周りのドアの１つがランダムに開き，さらにその部屋に移動してボタンを押すと再び周りのドアの１つがランダムに開くという流れを繰り返し，４つめの部屋に到達すると報酬がもらえる環境を計算機上に構築し，学習を試みた。そして，ドアの開き方によらずゴールに到達できることを確認するとともに，中間層に，開くドアの方向によらず，ドアが開いて新しい部屋が出現する前と後を離散的に区別するニューロンが発現することを確認した。これは，連続値入力信号から「部屋」という単位を切り出すことにつながる成果であると考えている。また，コミュニケーションにおける動詞表現の獲得については，コミュニケーションを行う前段階として，画像から物体の動きを認識することができるかどうかを確認したところ，画像サイズが大きくなると認識が難しくなるという問題があることが判明した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由時間軸の調整を行う微分型トレースについては，状態価値の学習のみで行動の学習は含んでいないものの，従来良く用いられている適格度トレースに対する優位性を示すことができたこと，そして，「主観的な時間軸」の形成とその利用という今後への大きな可能性を示すことができ，２３年度から比べて大きく達成度は挽回できた。多数の部屋からなる環境での学習は，計算機シミュレーションで行い，比較的複雑な環境での学習の確認と離散的な状態表現の出現を確認でき，大きな成果を得たが，実際のロボットと多数の部屋からなる学習実験環境の構築は進んでいない。それから，コミュニケーション学習における動詞表現の獲得に関する研究および実験環境の構築も，まだ前段階である動きの認識の学習で問題点が見つかり，その解決に時間がかかっており，予定していた成果は得られていない状況である。以上のように，予定通りに進んでいるところとそうでないところがあることを総合的に考慮し，「やや遅れている」と判断した。
今後の研究の推進方策	微分型トレースについては，最終年度に，行動の学習も含めた場合の有効性を検証することを最大の目的とする。そして，「主観的な時間軸」という観点から，今後大きく発展して行く可能性が大きいことから，同じくニューロンの出力の時間微分を用いて入力信号を取り込む手法を用いているリカレントニューラルネットの学習方法であるPRL法との融合等，今後への展開を考えて行く。離散的な状態表現については，ロボットシミュレータWebotsを試用して使えそうなことから，環境構築や更新の容易性を考慮し，実ロボットでの実験からシミュレータを用いた実験に方向を転換する。そして，部屋の移動タスクにおいて，簡単な視覚センサ信号を入力として与えて学習させるだけで，離散的な状態表現が創発するかどうかを検証する。また，コミュニケーション学習については，前段階である画像から物体の動きの認識学習で出た問題に対し，カメラを動かすことを合わせて学習させる。シミュレーションで学習できることを確認した後，xyテーブルを用いてカメラを動かすシステムを構築し，認識の学習を行う予定である。合わせて，シミュレーションで，動詞表現の獲得が学習できるかを検証するが，時間的に考えて，実ロボットを用いた実験での動詞表現の獲得の実現はかなり厳しい状況である。
次年度の研究費の使用計画	本年度は，複数の部屋からなる環境の構築ができず，次年度に使用することとした。コミュニケーション学習システムでは，すでにxyテーブルを別予算にて購入したため，後はその他の組み立て用の機材等の購入をする予定である。また，研究の進展からの必要に応じて，ロボットシミュレータの追加ライセンスを購入する。さらに，シミュレーションおよびデータ処理のためのPCを購入するとともに，成果発表のための国内外の学会(国外2回,国内2回程度で研究協力者の分も含む)への出張旅費として主として使用していく予定である。

研究成果
(16件)

すべて 2013 2012

すべて雑誌論文 (8件) (うち査読あり 3件) 学会発表 (8件)

[雑誌論文] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013
- 著者名/発表者名
  柴田克成, 栗崎俊介
- 雑誌名
  
  電子情報通信学会技術報告
  
  巻: NC2012-134 - NC2012-182 ページ: 215-220
[雑誌論文] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012
- 著者名/発表者名
  Katsunari Shibata and Shunsuke Kurizaki
- 雑誌名
  
  Proc. of ICDL-EpiRob (Int'l Conf. on Development and Learning- Epigenetic Robotics)
- DOI
  10.1109/DevLrn.2012.6400580
[雑誌論文] Differential Trace in Learning of Value Function with a Neural Network2012
- 著者名/発表者名
  Katsunari Shibata and Shuji Enoki
- 雑誌名
  
  Advances in Intelligent Systems and Computing, Robot Intelligence Technology and Applications 2012, Proc. of RiTA 2012
  
  巻: 1 ページ: 55-64
- 査読あり
[雑誌論文] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012
- 著者名/発表者名
  Yoshito Sawatsubashi, Mohamad Faizal bin Samsudin and Katsunari Shibata
- 雑誌名
  
  Advances in Intelligent Systems and Computing, Robot Intelligence Technology and Applications 2012, Proc. of RiTA 2012
  
  巻: 1 ページ: 13-22
- 査読あり
[雑誌論文] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012
- 著者名/発表者名
  Mohamad Faizal bin Samsudin, Yoshito Sawatsubashi and Katsunari Shibata
- 雑誌名
  
  LNCS(Lecture Notes in Computer Science), Neural Information Processing, Proc. of ICONIP2012
  
  巻: 1 ページ: 583-590
- 査読あり
[雑誌論文] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012
- 著者名/発表者名
  柴田克成, 笹原冬月
- 雑誌名
  
  計測自動制御学会システム・情報部門学術講演会講演論文集
  
  巻: 1 ページ: 390-395
[雑誌論文] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012
- 著者名/発表者名
  榎修志, 柴田克成
- 雑誌名
  
  計測自動制御学会システム・情報部門学術講演会講演論文集
  
  巻: 1 ページ: 396-401
[雑誌論文] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012
- 著者名/発表者名
  沢津橋由人, Mohamad Faizal Bin Samusudin, 柴田克成
- 雑誌名
  
  計測自動制御学会システム・情報部門学術講演会講演論文集
  
  巻: 1 ページ: 402-407
[学会発表] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013
- 著者名/発表者名
  ○柴田克成, 栗崎俊介
- 学会等名
  電子情報通信学会ニューロコンピューティング研究会
- 発表場所
  東京都町田市
- 年月日
  20130313-20130315
[学会発表] Differential Trace in Learning of Value Function with a Neural Network2012
- 著者名/発表者名
  Katsunari Shibata and ○Shuji Enoki
- 学会等名
  RiTA (Robot Intelligent Technology and Applications) 2012
- 発表場所
  光州（韓国）
- 年月日
  20121216-20121218
[学会発表] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012
- 著者名/発表者名
  ○Yoshito Sawatsubashi, Mohamad Faizal bin Samsudin and Katsunari Shibata
- 学会等名
  RiTA (Robot Intelligent Technology and Applications) 2012
- 発表場所
  光州（韓国）
- 年月日
  20121216-20121216
[学会発表] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012
- 著者名/発表者名
  ○柴田克成, 笹原冬月
- 学会等名
  計測自動制御学会システム・情報部門学術講演会
- 発表場所
  名古屋市
- 年月日
  20121121-20121123
[学会発表] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012
- 著者名/発表者名
  ○榎修志, 柴田克成
- 学会等名
  計測自動制御学会システム・情報部門学術講演会
- 発表場所
  名古屋市
- 年月日
  20121121-20121123
[学会発表] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012
- 著者名/発表者名
  ○沢津橋由人, Mohamad Faizal Bin Samusudin, 柴田克成
- 学会等名
  計測自動制御学会システム・情報部門学術講演会
- 発表場所
  名古屋市
- 年月日
  20121121-20121123
[学会発表] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012
- 著者名/発表者名
  ○Mohamad Faizal bin Samsudin, Yoshito Sawatsubashi and Katsunari Shibata
- 学会等名
  ICONIP (Int'l Conf. on Neural Information Processing Systems) 2012
- 発表場所
  Doha (Qatar)
- 年月日
  20121112-20121115
[学会発表] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012
- 著者名/発表者名
  ○Katsunari Shibata and Shunsuke Kurizaki
- 学会等名
  Proc. of ICDL-EpiRob (Int'l Conf. on Development and Learning - Epigenetic Robotics) 2012
- 発表場所
  San Diego (USA)
- 年月日
  20121107-20121109

2012 年度 実施状況報告書

時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索

研究代表者

柴田 克成 大分大学, 工学部, 准教授 (10260522)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013

著者名/発表者名

雑誌名

[雑誌論文] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012

著者名/発表者名

雑誌名

DOI

[雑誌論文] Differential Trace in Learning of Value Function with a Neural Network2012

著者名/発表者名

雑誌名

[雑誌論文] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012

著者名/発表者名

雑誌名

[雑誌論文] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012

著者名/発表者名

雑誌名

[雑誌論文] 強化学習による 合目的的かつ接地した一方向コミュニケーションの創発2012

著者名/発表者名

雑誌名

[雑誌論文] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012

著者名/発表者名

雑誌名

[雑誌論文] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012

著者名/発表者名

雑誌名

[学会発表] ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Differential Trace in Learning of Value Function with a Neural Network2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Emergence of Discrete and Abstract State Representation in Continuous Input Task through Reinforcement Learning2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 強化学習による 合目的的かつ接地した一方向コミュニケーションの創発2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ニューラルネットを用いた価値関数の学習における微分型トレースの提案2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] リカレントネットを用いた強化学習における離散的かつ抽象的な状態表現の創発2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Emergence of Multi-Step Discrete State Transition through Reinforcement Learning with a Recurrent Neural Network2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Emergence of Color Constancy Illusion through Reinforcement Learning with a Neural Network2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実施状況報告書

柴田克成大分大学, 工学部, 准教授 (10260522)

[雑誌論文] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012

[学会発表] 強化学習による合目的的かつ接地した一方向コミュニケーションの創発2012