2012 Fiscal Year Research-status Report

確率的模倣学習に基づく動作の言語化

Research Project

Project/Area Number	24700188
Research Category	Grant-in-Aid for Young Scientists (B)
Research Institution	National Institute of Information and Communications Technology
Principal Investigator	杉浦孔明独立行政法人情報通信研究機構, ユニバーサルコミュニケーション研究所情報利活用基盤研究室, 研究員 (60470473)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	知能ロボティクス / 模倣学習 / 機械学習 / 動作認識 / ヒューマンロボットインタラクション / 軌道生成
Research Abstract	本研究は、刻一刻と変わる環境や状況に対応可能かつ人間らしい自然な動作を再現できる模倣学習手法を開発することを目的とする。今年度は、（１）模倣学習の実験プラットフォームとして用いるロボットのコントローラおよびシミュレータソフトウェアの開発と、（２）ペナルティ項つき尤度最大化を導入したRPD(Reference-Point-Dependent)-HMMによる模倣学習手法の開発を行った。（１）では、上半身ヒューマノイドをスライダにより昇降可能な、全方位移動台車型ヒューマノイドのコントローラを整備し、汎用的なミドルウェアから制御可能にした。（２）では、これまでに開発したRPD-HMMを拡張し、学習サンプルが少ない場合にも不安定な軌道を生成しないように改良した。HMMを用いた単純なサンプリングに基づく動作生成と比較して、RPD-HMMによる動作生成は尤度最大化という見通しのよい基盤を持ち、高速な生成が可能であるというメリットがある。しかし、模倣学習分野では学習サンプルを収集するコストが音声合成などの分野と比較して大きいため、パラメータ数の増加は大きなデメリットである。そこで、RPD-HMMに軌道の滑らかさを制御するマクロパラメータを導入し、マクロパラメータをペナルティ項とする尤度最大化により軌道を生成する手法を提案した。これにより、パラメータ数を削減しつつ滑らかな軌道生成を可能にした。性能評価実験のため、マクロパラメータを使用しないベースライン手法との比較評価を行った。その結果、正解（位置・速度・加速度を用いたHMM軌道生成）からの二乗誤差に関して、提案手法がベースライン手法より優れるという結果を得た。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 今年度は、マクロパラメータをペナルティ項とする尤度最大化により軌道を生成する手法を提案した。性能評価実験のため、マクロパラメータを使用しないベースライン手法との比較評価を行った結果、正提案手法がベースライン手法より優れるという結果を得ている。一方、本研究の目的である、刻一刻と変わる環境や状況に対応可能かつ人間らしい自然な動作を再現できる模倣学習手法を実現するためには、模倣学習のオンライン化が不可欠である。本研究課題ではこれをH25年度に達成すべき最優先課題とする。これまで予備的検討として、Rapidly-exploring Random Trees（RRT）とRPD-HMMを組み合わせた手法を開発しているが自然性において問題がある。H25年度には、この手法の改良と、解析的に最尤軌道を求める手法の開発を行い、２つの手法を比較評価する。定量的評価指標として、人間が実行した軌道との二乗誤差を用いる。
Strategy for Future Research Activity	平成２５年度は、（１）RPD（Reference-Point-Dependent）-HMMによるオンライン模倣の確立と、（２）全身動作へのRPD-HMMの適用に取り組む。（１）では、これまで開発したRPD-HMMをオンライン化し、時々刻々と変わる環境における軌道生成手法を開発する。（２）では、CGへの応用を念頭におき、テニスやキャッチボールなどの全身動作の合成法を開発する。球技の主要動作は、ボールを参照点とした動作であるため、RPD-HMMが適用可能であると考える。軌道生成時には、障害物回避や足と床の間の力学的バランスを拘束条件としてRPD-HMMによる、即応的軌道生成手法を開発する。客観評価では正解軌道との二乗誤差を基準とする。主観評価では、CG上で生成軌道を被験者に提示し、自然さなどをアンケート評価する。最終年度に家庭用ロボットによる模倣統合システムとして成果を統合する準備として、開発した手法の台車型ヒューマノイドへの実装に着手する。
Expenditure Plans for the Next FY Research Funding	平成24年度に実験準備のためのハードウェア設計のために支援作業者へ謝金を支払った。この作業において支援作業者が新たに開発したCADモデルを使用できたため、想定より作業が早く終了し当該助成金（B-A）が生じた。平成25年度は、データアノテーションなどの支援作業のための費用を計上しているので、当該助成金を追加してデータ量を増加させ開発手法の精度を向上させる。

Research Products
(3 results)

All 2012

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

[Journal Article] ロボット対話 -実世界情報を用いたコミュニケーションの学習-2012
- Author(s)
  杉浦孔明
- Journal Title
  
  人工知能学会誌
  
  Volume: 27 Pages: 580-586
- Peer Reviewed
[Presentation] 物体操作タスクのためのペナルティ項付き尤度最大化によるHMM軌道生成2012
- Author(s)
  杉浦孔明, 岩橋直人, 柏岡秀紀
- Organizer
  第13回計測自動制御学会システムインテグレーション部門講演会
- Place of Presentation
  福岡国際会議場（福岡県）
- Year and Date
  20121218-20121220
[Presentation] 物体操作タスクにおけるマクロパラメータを用いたHMM軌道生成2012
- Author(s)
  杉浦孔明, 岩橋直人, 柏岡秀紀
- Organizer
  第30回日本ロボット学会学術講演会
- Place of Presentation
  札幌コンベンションセンター（北海道）
- Year and Date
  20120917-20120920

2012 Fiscal Year Research-status Report

確率的模倣学習に基づく動作の言語化

Principal Investigator

杉浦 孔明 独立行政法人情報通信研究機構, ユニバーサルコミュニケーション研究所 情報利活用基盤研究室, 研究員 (60470473)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ロボット対話 -実世界情報を用いたコミュニケーションの学習-2012

Author(s)

Journal Title

[Presentation] 物体操作タスクのためのペナルティ項付き尤度最大化によるHMM軌道生成2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 物体操作タスクにおけるマクロパラメータを用いたHMM軌道生成2012

Author(s)

Organizer

Place of Presentation

Year and Date

杉浦孔明独立行政法人情報通信研究機構, ユニバーサルコミュニケーション研究所情報利活用基盤研究室, 研究員 (60470473)