2018 Fiscal Year Annual Research Report
sequence-to-sequenceモデルを用いた臨機応変な物体操作
Project/Area Number |
18J14272
|
Research Institution | Saitama University |
Principal Investigator |
沓澤 京 埼玉大学, 理工学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2018-04-25 – 2020-03-31
|
Keywords | ロボット / 深層学習 / 動作生成 / ニューラルネットワーク / sequence-to-sequenceモデル / 表現学習 |
Outline of Annual Research Achievements |
ロボットが人間の生活空間で活動するにあたって,物体を押す・転がす・投げるなどの多様な手段で操作することが求められる。本研究はsequence-to-sequence(seq2seq)モデルというニューラルネットワークを利用し,複数の物体操作を臨機応変に組み合わせて動作計画を行うseq2seqモデルの実現を目指した。 当初の計画では単一のseq2seqモデルに複数動作を学習させる予定であったが,研究を進めるうちに,必要とされる計算資源が莫大になることが予想された。そのため計画を変更し,複数の種類の動作に対してそれぞれにseq2seqモデルを学習させる方針へと転換した。 まずはseq2seqモデルで複雑な物体操作タスクを扱う基礎研究として「接触を伴う動作の学習」に取り組んだ。このとき物体操作タスクにしばしば現れる課題として「静止摩擦と動摩擦との不連続な遷移を伴う状況での動作生成」を扱った。このようなタスクは環境モデルに不連続性を含み,静止摩擦領域において勾配消失現象というものが生じて学習が進まなくなってしまう。これに対処するため,カリキュラム学習を応用した訓練手法を提案し,不連続性を含む環境に対しても安定的な学習を実現した。 続いて,個別に訓練した複数のseq2seqモデルを訓練後に組み合わせるなどして利用する技術の開発に取り組んだ。このとき,通常のニューラルネットワークは訓練時と異なるタスクに利用できないことが課題となる。その解決手法として,seq2seqモデルが獲得した潜在表現(動作の低次元特徴量)を編集する手法を提案した。この手法は誤差逆伝播法に基づくもので,目標位置指定などの訓練時に与えていない目的関数に対して,軌道をそのまま扱うよりも効率的に最適化できることを確認した。 以上のように当初の計画からの変更があったものの,新たな方針のもとで発展的な成果を得られた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度では「接触を伴う動作の学習」および「訓練済seq2seqモデルの潜在表現を編集する技術」の実現に取り組み,両方において成果を上げた。特に後者については当初の計画以上の発展性をもつ技術が開発された。 「接触を伴う動作の学習」としては,不連続な接触モデルを含んだ物体操作の訓練方法を開発した。この手法はカリキュラム学習と呼ばれる訓練手法を応用したものであり,ニューラルネットワークが苦手とする静止摩擦を含む環境下であっても動作学習を可能とする。この技術は原理上,様々な種類の環境モデルに対して有効であることが期待される。 また,「訓練済seq2seqモデルの潜在表現を編集する技術」としては,訓練済seq2seqモデルの生成する動作を指定する技術を開発した。本研究のseq2seqモデルは与えられた軌道を動力学的制約にあわせて変形するように訓練されるが,本技術によって訓練後のモデルを使って終端位置の指定などの動作指定ができるようになる。通常ニューラルネットワークは訓練されたタスクにしか適用できないが,本技術によって訓練時に与えられていない目的関数を利用して出力動作を指定することができる。これは当初想定した単一モデルによる動作生成よりも訓練の手間が低減されるばかりか,さらに幅広いタスクへの適用が可能になると期待される。
|
Strategy for Future Research Activity |
主には「訓練済seq2seqモデルの潜在表現を編集する技術」についてさらなる検証と発展を目指す。 現在開発中の技術では環境のモデルや目的関数が必要となることが課題である。これだけでも適用範囲は非常に広いが,機械学習技術が得意とするデータドリブンな学習(たとえば人間の動作を模倣する学習)には直接適用できない。よって,データドリブンな学習手法を実現する必要がある。
|