行動の模倣と伝達における文脈と環境の非均質性の扱いに関する研究

研究課題

研究課題/領域番号	12F02047
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	外国
研究分野	知覚情報処理・知能ロボティクス
研究機関	東京大学
研究代表者	中村仁彦東京大学, 大学院・情報理工学系研究科, 教授
研究分担者	HOWARD Matthew 東京大学, 大学院・情報理工学系研究科, 外国人特別研究員
研究期間 (年度)	2012 – 2013
研究課題ステータス	採択後辞退 (2012年度)
配分額 *注記	1,200千円 (直接経費: 1,200千円) 2012年度: 1,200千円 (直接経費: 1,200千円)
キーワード	機械学習 / インピーダンス学習 / 反射モデル / 強化学習 / 筋骨格モデル
研究概要	研究代表者らはこれまでに、ヒューマノイドロボットの運動制御とその計算論の研究を進めてきた。その中でより複雑な計算課題として、人間の全身の筋骨格系のモデル化とその計算を行ってきている。この研究では現在では、モーションキャプチャシステムと床反力計、無線筋電計などを用いて動的な運動からその際に生じている筋張力を推定する方法を提案し、そのためのソフトウェアの開発を行ってきている。本研究では、行動の文脈や環境によって巧みに制御される人間のインピーダンス調節機能のモデルを開発する。インピーダンス調節機能の学習モデルにおいては、学習の速度および課題として扱う問題の次元の増加にともなって、アルゴリズムの安定性を維持することが重要になる。例えば、現在の逆最適制御問題は、限られたデータセットについての、大域的な関数近似を用いた問題固有の解法をオフラインで実施している。平成24年度はこの問題を中心に研究を実施した。第一課題として、オンラインの計算を可能にする局所関数近似を採用した。人間の反射弓の伝達速度と、ロボットのセンサ情報のフィードバックの伝達速度には約100倍の違いがある。人間の反射モデルをロボットの行動に利用するためには伝達速度の違いを乗り越える実装方法を開発する必要がある。第二課題として、時間についての無次元化に基づくアルゴリズムを開発した。ここではモデルに依存しない強化学習法の中の時間差分最小二乗学習法を基礎とする方法を開発した。非線形力学系を局所的な線形近似モデルの重み付重ね合わせとして表現し、その重みをベルマンのダイナミックプログラミングに従った学習法で求めるアルゴリズム開発し、局所重付時間差分最小二乗学習法と名付けた。これを用いた数値実験によってロボットマニピュレータが持つ非線形特性に対しても有効に働くことを確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由局所重付時間差分最小二乗学習法の理論の構築を行った。この結果を、2013年4月24-26日にベルギーで開催された21st European Ssymposium on Artificial Neural Networks, Computational Intelligence and Machine Learningにおいて、査読付論文、M. Howard and Y. Nakamura,"Locally Weighted Least Squares Temporal Difference Learning"",pp.203-208,2013.として発表した。この成果を検証するべく、現在研究室でトルクセンサを内蔵した4軸マニピュレータを用いた実験の準備をしているところである。
今後の研究の推進方策	Mattew Howard博士は、The King's College of Londonにおいて、Lectulerのオファーがあり、当初2年の予定を短縮して2013年5月に帰国することとなった。研究室では大学院学生が局所重付時間差分最小二乗学習法の研究を引き続き行う予定であり、現在Howard博士と実験の準備を進めている。

報告書

(1件)

2012 実績報告書

研究成果
(1件)

すべてその他

すべて備考 (1件)

[備考] 研究室webページ
- URL
  http://www.ynl.t.u-tokyo.ac.jp
- 関連する報告書
  2012 実績報告書