本研究は,ロボットが人間の言語指示を理解し作業を行うための,言語と行動の関係性を学習するモデルの構築を目的としている. 前年度は,翻訳や対話システムに用いられるsequence to sequence(seq2seq)学習の手法を応用し,言語シーケンスから行動シーケンスへ変換するモデルを提案したが,二点課題を残した.一つ目は,視覚特徴量の抽出アルゴリズムを人手で設計していたことである.言語の意味に対応する視覚特徴の形式は多様であるため,これ自体学習から得られることが望ましい.二つ目は,変換が言語から行動への一方向のみであったことである.逆方向,すなわち,ロボットが自身の生成した行動を言語的に説明できる能力も,ロボットの挙動の解釈可能性の観点から鑑みて必要である. そこでまず一つ目の課題を解決するために,視覚特徴抽出モジュールを作り込みのものから学習可能なオートエンコーダネットワークに置き換えた.オートエンコーダは,画像のデータセットから,そのデータセットをうまく表現する特徴量を自動で抽出することを学習するため,恣意的な特徴量設計を回避できる.二つ目の課題に対しては,二つのseq2seqモデルを組み合わせ,言語のベクトル表現と,それに対応する行動のベクトル表現が,互いに近くなる拘束をかけて学習することで,得られた共有表現を通して言語シーケンスと行動シーケンスを双方向に変換することを提案した. このように拡張したモデルの有効性を実ロボットを用いた実験によって評価した.3単語からなる指示説明文と10関節からなる行動シーケンス(およびカメラ画像)のペアのデータセットを作り学習を行なった.学習後のモデルはその時の視覚状況に応じて,言語指示から行動シーケンスへの変換,および行動シーケンスから説明文への変換をおこなうことができた.特に,未学習の状況でもこれらを実現する汎化能力を示した.
|