2016 Fiscal Year Annual Research Report
階層的目標志向行動を学習・生成する神経ダイナミクスモデル
Project/Area Number |
16H05878
|
Research Institution | Waseda University |
Principal Investigator |
有江 浩明 早稲田大学, 次世代ロボット研究機構, その他(招聘研究員) (20424814)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | ニューラルネットワーク / ロボット / 目標志向行動 |
Outline of Annual Research Achievements |
本研究課題では,実世界での適応的な目標志向行動を学習・生成するメカニズムを,構成論的なアプローチから理解することを目指している.この目標へ向けて,平成28年度はまずロボット実験環境の整備を行った.具体的には,階層的な目標志向行動が必要となる課題として,人間と共存する環境下での卓上物体操作タスクを想定し,これを行うために必要なロボットのハードウェア仕様の検討を行い,単腕7自由度とグリッパを有するロボットアームと,これを昇降させる機構の設計・開発を行った.特に教示データの収集を容易に行えるよう,ロボットアームの各関節には高感度トルクセンサを搭載し,外力を加えることで,容易に動作軌道を修正・教示できるよう設計を行った. また,階層的な目標志向行動を学習するアルゴリズムとして,これまでに開発してきたMultiple Timescale Recurrent Neural Network (MTRNN)に,教師データの分散を予測させるメカニズムを導入したStochastic MTRNを開発し,階層性を持った目標志向行動を学習できるか検討を行った.その結果,ニューラルネットワークの構造を適切に設計することで,教示データに陰に含まれる行為目標の階層性を学習時に分離し,ニューラルネットワークの内部に妥当な内部表現を自己組織化できることが明らかになった. さらに,このアルゴリズムを小型ヒューマノイドロボットに実装し,人間とのインタラクションを含む動的な環境下における目標志向行動の切り替え課題に適用した.具体的には人間とロボットが向かい合い,それぞれの前に置かれているベルをルールに従って鳴らすというものである.この課題ではベルを押す順序ルールや,担当するベル(相手側のベルには触れない),ベルが置かれている位置などが動的に変化するが,これらの変化に対しても適応的に行動を生成できることが確かめられた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成28年度は①実験用ロボットハードウェアと計算機の拡充と②Deep Learningの学習アルゴリズムを取り込んだ神経回路モデルの基礎実験を行う計画であった.まず実験用ロボットとしては予定していたロボットの仕様が学習実験に向かなかったため,新たに仕様を検討し,単腕7自由度とグリッパを有するトルク制御可能なロボットアームの設計・開発を行った.これによってほぼ計画通りに研究を進められていると考える.また,計算機環境についても,GPUを搭載した計算機を購入し,今後の研究に対応できる環境を構築した. また,神経回路モデルのアルゴリズムの検討に関しては,Deep Learningの学習手法を取り入れたモデルの開発を行う計画であったが,先に現状のMTRNNモデルの性能評価を行い,簡単な実験系において,階層的目標志向行動の学習・生成に十分な性能を持っていることを確認した.Deep Learning手法による大規模データへの展開を前に,基本的な性能を確認できたことで,今後の研究を円滑に進められると考える.
|
Strategy for Future Research Activity |
今後は神経回路モデルの比較検討と実ロボットを用いた行為学習実験を行う.前年度に実施した,人間とロボットの協調作業に関する基礎実験では, SMTRNNを使用した.それに加え,近年Deep Learningの研究分野において多く用いられているLong Short Term Memory(LSTM)やGated Recurrent Unit(GRU)を有する他のRNNも用いて実験を行い,モデルの比較検討を行う. いずれのモデルにおいても,上位・下位回路にはそれぞれ長期・短期文脈情報が自己組織的に獲得され,上位から下位回路を通じて感覚運動情報のトップダウン的な予測生成が行われることが期待される.これらの文脈情報は長期・短期行動計画を実現するが,外部環境に予期せぬ変化が生じた場合は,行動計画を修正する必要がある.本年度はその修正メカニズムを実装する.具体的には,感覚運動情報に関する予測誤差を,下位回路を通じて上位回路へ逆伝播させ,各回路の文脈情報を修正し,行動計画の修正を実現する. ロボットの学習実験では,前年度に環境整備を行った昇降機構とアームから成るロボットを用いる.直接教示によって,ロボットが物体操作課題を実行している際の多次元感覚運動情報を取得する.ここで課題は,物体をつかむ,持ち上げるといった繰り返し利用可能な行動単位(プリミティブ)と,プリミティブの多様な組み合わせから構成され,それらの順番は物体の位置などの外部環境の情報と最終的な目標情報に応じて定まるものとする.取得した感覚運動情報の学習を前述のモデルを用いて行う.学習後のモデルの内部表象を解析することで,各モデルの違いや,それぞれのモデルにおけるパラメータの違いと目標志向行動の表象方法の関係を明らかにする.
|