行動の模倣と伝達における文脈と環境の非均質性の扱いに関する研究
Project/Area Number |
12F02047
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 外国 |
Research Field |
Perception information processing/Intelligent robotics
|
Research Institution | The University of Tokyo |
Principal Investigator |
中村 仁彦 東京大学, 大学院・情報理工学系研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
HOWARD Matthew 東京大学, 大学院・情報理工学系研究科, 外国人特別研究員
|
Project Period (FY) |
2012 – 2013
|
Project Status |
Declined (Fiscal Year 2012)
|
Budget Amount *help |
¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2012: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 機械学習 / インピーダンス学習 / 反射モデル / 強化学習 / 筋骨格モデル |
Research Abstract |
研究代表者らはこれまでに、ヒューマノイドロボットの運動制御とその計算論の研究を進めてきた。その中でより複雑な計算課題として、人間の全身の筋骨格系のモデル化とその計算を行ってきている。この研究では現在では、モーションキャプチャシステムと床反力計、無線筋電計などを用いて動的な運動からその際に生じている筋張力を推定する方法を提案し、そのためのソフトウェアの開発を行ってきている。 本研究では、行動の文脈や環境によって巧みに制御される人間のインピーダンス調節機能のモデルを開発する。インピーダンス調節機能の学習モデルにおいては、学習の速度および課題として扱う問題の次元の増加にともなって、アルゴリズムの安定性を維持することが重要になる。例えば、現在の逆最適制御問題は、限られたデータセットについての、大域的な関数近似を用いた問題固有の解法をオフラインで実施している。平成24年度はこの問題を中心に研究を実施した。第一課題として、オンラインの計算を可能にする局所関数近似を採用した。人間の反射弓の伝達速度と、ロボットのセンサ情報のフィードバックの伝達速度には約100倍の違いがある。人間の反射モデルをロボットの行動に利用するためには伝達速度の違いを乗り越える実装方法を開発する必要がある。第二課題として、時間についての無次元化に基づくアルゴリズムを開発した。 ここではモデルに依存しない強化学習法の中の時間差分最小二乗学習法を基礎とする方法を開発した。非線形力学系を局所的な線形近似モデルの重み付重ね合わせとして表現し、その重みをベルマンのダイナミックプログラミングに従った学習法で求めるアルゴリズム開発し、局所重付時間差分最小二乗学習法と名付けた。これを用いた数値実験によってロボットマニピュレータが持つ非線形特性に対しても有効に働くことを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
局所重付時間差分最小二乗学習法の理論の構築を行った。この結果を、2013年4月24-26日にベルギーで開催された21st European Ssymposium on Artificial Neural Networks, Computational Intelligence and Machine Learningにおいて、査読付論文、M. Howard and Y. Nakamura,"Locally Weighted Least Squares Temporal Difference Learning"",pp.203-208,2013.として発表した。この成果を検証するべく、現在研究室でトルクセンサを内蔵した4軸マニピュレータを用いた実験の準備をしているところである。
|
Strategy for Future Research Activity |
Mattew Howard博士は、The King's College of Londonにおいて、Lectulerのオファーがあり、当初2年の予定を短縮して2013年5月に帰国することとなった。研究室では大学院学生が局所重付時間差分最小二乗学習法の研究を引き続き行う予定であり、現在Howard博士と実験の準備を進めている。
|
Report
(1 results)
Research Products
(1 results)