2013 Fiscal Year Annual Research Report
時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索
Project/Area Number |
23500245
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 大分大学, 工学部, 准教授 (10260522)
|
Keywords | 因果トレース / 強化学習 / リカレントニューラルネット / ロボット / コミュニケーション学習 / 動詞表現 / 離散的・抽象的表現 / 自律的役割分担 |
Research Abstract |
学習のための過去の記憶における時間軸の調整を行う微分型トレース(因果トレースと名前を変更した)については,状態滞在時間に大きなアンバランスがある場合の状態価値の学習に対して,他の手法と比較して,圧倒的な優位性があることを示すことができた。また,その際,過去のイベントの中間層での表現において,中間層ニューロン間での役割分担が進むことを確認し,本手法が学習時の時間の扱いに対する画期的な方法であり,今後に向けて大きな発展性があることを示すことができた。 また,微分型トレースを動作の学習も含めた強化学習へ適用することに関しては,懸念されていた試行錯誤による微分型トレースの効果の大幅な減少は限定的であることを示唆する結果が得られた。 多数の部屋からなる環境での強化学習による離散的・抽象的表現の獲得については,ロボットシミュレータWebots上で部屋とロボットよりなる環境を構築し,ロボットが画像データを取り込んで学習できるようになった。しかし,まだ十分なデータを取るには至っていない。 一方,コミュニケーションにおける動詞表現の獲得については,送信者には物体が運動している状況を捉えた簡単な視覚センサ信号を入力し,送信する信号とセンサの動きを生成し,受信者側にはその信号を入力し,物体の動きを認識させる。両者が強化学習で学習した結果,送信者側は過去のセンサ信号を考慮した適切なコミュニケーション信号を送ることができ,受信者側もその信号を受けて,「そこまでのセンサ信号からだけでは認識できない」という状態も含めて,適切な認識結果を出力できることを示した。その際,送信者が予め動きの認識を学習すること,その際に問題を徐々に難しくしていくこと,さらには,認識学習からコミュニケーション学習に移行する際に,ニューラルネットの内部表現が大きく壊れないようにする工夫が必要であった。
|
Research Products
(10 results)