2017 Fiscal Year Annual Research Report
ニューラルネットワークを用いた実環境共存型ロボットのための言語と行動の統合学習
Project/Area Number |
17J10580
|
Research Institution | Waseda University |
Principal Investigator |
山田 竜郎 早稲田大学, 理工学術院, 特別研究員(DC2)
|
Project Period (FY) |
2017-04-26 – 2019-03-31
|
Keywords | 記号接地問題 / sequence to sequence学習 / recurrent neural network / 言語ロボティクス |
Outline of Annual Research Achievements |
本研究は,人間の言語指示の意味をその場の状況に即して理解し作業を行うロボットのための,言語と行動の関係性を獲得する学習モデルを構築することを目的としている.ロボットが人間と言語コミュニケーションをとりつつ共同作業を行うには,離散系である言語を,連続空間内における意味的行動に結びつける記号接地問題を,解決することができなければならない.本研究は,これを解決するために,近年,自然言語処理分野で翻訳や対話システムに用いられているsequence to sequence(seq2seq)学習の手法を応用した.Seq2seq学習はリカレントニューラルネットワークモデルの学習法の一つであり,対となるシーケンス間の対応関係を学習する.学習後のモデルは,比較的計算量の少ない順伝播計算により,入力文に対応する出力文を生成することができる(例: 英語->日本語,質問->応答).本研究では,モデルへの入力を,言語指示のみでなく,視覚情報とロボットの関節角度情報を加えたものとし,出力についてはロボットの未来の関節角度情報を予測するものとして置き換えた.これによりモデルは,言語指示を現在の環境とロボット自身の状態を踏まえた形で理解し,対応する行動を生成することを学習する.また単に指示と行動の対応関係を学習するだけでなく,一連の時系列のデータから,指示受容フェーズ,行動応答フェーズ,待機フェーズといったインタラクションの進行パターンを,ネットワークのダイナミクスにおけるアトラクタとして表現することも学習する.実際にこのモデルを実装して行なった検証実験で,小型のヒューマノイドロボットに旗揚げやベル叩きといった卓上タスクを学習させた.学習後のモデルは動詞,目的語,副詞,論理語からなる文章と,視覚情報から,適切な行動を生成することができた.特に未学習の状況において正しい行動を生成する汎化能力も確認できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
上述のモデルは,実時間での言語指示から行動生成を可能にするが,二点課題を残していた.ひとつめは,視覚特徴量の抽出アルゴリズムは人手で設計していたことである.単語やフレーズに対応する視覚特徴の形式は多様であるため,これ自体学習から得られることが望ましかった.そこで視覚特徴抽出モジュールを,作り込みのものからオートエンコーダに置き換えた.オートエンコーダはディープニューラルネットワークの一種であり,画像のデータセットから,そのデータセットをうまく表現する特徴量を自動で抽出することを学習する.ふたつめは,変換の方向が言語指示からロボットの行動への一方向のみであったことである.逆方向の変換,すなわち,ロボットが自身の生成した行動を,言語的に説明できる能力も,ロボットの挙動の解釈可能性の観点から鑑みて重要である.そこで,二つのseq2seqモデルを組み合わせ,言語のベクトル表現と,それに対応する行動のベクトル表現が,互いに近くなるような拘束をかけて学習することで,得られた共有表現を通して言語シーケンスと行動シーケンスを双方向に変換することを提案した.このモデルについても実装して,評価のためのロボット実験を行なった.具体的には,簡単な3単語程度の指示説明文と行動シーケンスのペアのデータセットを作り学習を行なった.学習後のモデルは,実際に言語指示から行動シーケンスへの変換,および行動シーケンスから対応する説明文への変換をおこなうことができ,やはり未学習の状況でもこれらを実現する汎化能力を示した.これらの成果についてもすでに国内学会と国際学会にそれぞれ投稿済みである.以上の点も踏まえて,本研究はおおむね順調に進展している.
|
Strategy for Future Research Activity |
今後は,可動域のより広い大型のロボットを用いて,タスクをより複雑なものにし,スケーラビリティを評価する実験をおこなう予定である.また外乱へのロバスト性を向上するために,アテンション機構と呼ばれるモジュールを加えることを計画している.アテンション機構を加えたモデルは,通常型のseq2seqモデルと違い,入力の言語指示の情報を行動生成中に内部状態として保持しておくため,外乱や環境の変化が起きた際にも,安定して指示された行動を生成可能であることが期待される. モジュール自体はすでに実装済みであり,予備実験として現在数値実験を進めている.
|