研究課題/領域番号 |
26540133
|
研究機関 | 東京大学 |
研究代表者 |
高野 渉 東京大学, 情報理工学(系)研究科, 准教授 (30512090)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 身体運動 / 自然言語 / 行動認識 / 統計モデル |
研究実績の概要 |
研究代表者は,人間の身体運動と言語を結び付ける統計モデルを構築し,運動認識と生成の機能を基盤としたロボットの知能を構築してきた.日常生活での多様な行動を記述するためには,運動の種類および言語の語彙数を増やし,身体が働きかける環境を取り込むような拡張技術が求められる.平成27年度では,(A)文章の並びを空間中の単語の遷移軌道となるように単語を配置した言語空間の構築および単語予測アルゴリズムの開発,(B)身体が作用する複数の物体を認識し,身体運動および物体認識を組み合わせて行動データから言語を生成する統計数理の枠組みの構築を実施した. (A)青空文庫の8冊の本から,2877種類の単語の辞書を作成し,文章中において隣り合う単語の距離が1,連続する複数単語の幾何学的関係が同じになるように16次元空間中に単語を点として埋め込んだ言語空間を構築した.単語間の幾何学を利用することによって,単語の並びから次の単語を予測することができる.すなわち,入力単語の並びの軌跡から次の単語の位置を計算し,その近傍に配置された単語を予測結果として出力する.5つの単語の並びから次の単語候補を5つ予測する実験を行い,7709組のテストデータに対して,正解率が48.4%であることを確認した. (B)運動と物体のカテゴリの組み合わせから単語が生成される統計モデルと文章中の単語の並びから単語の遷移を表す統計モデルを作成し,運動と物体の計測データから最も確率が高い文章を生成する計算法を開発した. 22種類の行動に対して,各行動を18試行計測したデータセットを作成し,学習および文章生成の実験を行った.生成された文章と正解文章の一致率を示すBLEUスコアが0.41であった.物体の個数を予め与えた場合はBLEUスコアが0.61と高くなり,行動に対して物体へのアテンションを精度良く推定する技術が必要であることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成27年度の推進方針として,身体運動とそれが作用する物体などの周囲環境の認識を組み合わせて,行動を表す文章の生成を高める技術を開発することに重点を置くこととした.平成27年度では身体が働きかける物体が複数にわたる場合にでも,運動と物体認識結果を組み合わせて,文章を生成する統計数理の枠組みの基礎を与えることができ,計画通りに進んでいる.ただし,適用できる状況がまだ限定的であり,日常生活の多様な行動にも適用できるよう,膨大な行動データセットの準備と構築した統計数理の枠組みの改良は今後も継続して実施する必要がある.特に,不特定多数の人々が行動に言語ラベルを付与するクラウドソーシングの枠組みを利用することで,データセットの収集を効率的に進めることを計画段階では検討していたが,この作業を行うことをできなかった点では進捗が遅れている. 文章中の単語の並びを空間的な単語の軌道として表現するモデルの構築は,計画段階では念頭になかった.しかし,膨大な言語データが入手できる状況で,単語の組み合わせ爆発から膨大な数の文章が行動の説明文として候補に挙がり,その計算付加が問題となる.単語を空間中に規則正しく配置することで単語の並びを簡単に把握することができ,行動を表す文章の候補を制限しながら計算付加を抑えることが可能になった.文章生成の精度には,まだ改良余地を残しているが,言語の幾何学という新しい着想で言語の大規模データの高速処理が可能にあり,計画当初より進めることができていると評価できる.
|
今後の研究の推進方策 |
平成28年度では,行動の計測環境の再整備および行動と言語の背後にある多様体の推定および文章生成への活用に関する理論を確立する. これまで,人間の身体運動および周囲の状況を1台の色・深さカメラにて計測してきた.この計測の問題点として,深さデータから全身の動きを推定する精度の低さ,全身を映すために操作する物体に焦点を当てることができず,情報量の小さい物体を識別することの難しさが挙げられる.全身運動は光学式モーションキャプチャにて計測し,それと同期して物体などの環境を色・深さカメラにて計測する環境を整備する.これによって,身体の動きを精度良く計測でき,かつ操作物体に焦点を当てることで物体認識の精度を向上させることが期待できる. 文章中の単語の並びを空間に埋め込む言語空間から着想を得て,行動と言語を結び付けるデータ構造を空間的に捉えなおす作業を行う.これまで,運動・物体のカテゴリと単語を統計モデルとして学習する枠組みを開発してきた.このモデルでは,運動・物体・単語が隠れ変数を介して結ばれている.隠れ変数が規定する局所座標系を繋ぎ合わせる作業によって運動・物体・言語の背後にある多様体を捉え,この空間での行動や言語の距離を再定義する.これまでは隠れ変数間の距離は1つの大域的なユークリッド空間として定義されていたが,これが必ずしも測地線距離を与えるものではなかった.行動や言語の移り変わりを空間上での測地線としてしっかり捉えることで行動や言語を滑らかに繋ぐ技術や測地線にそった新たな行動や言語の表現形を生成する技術にも繋がることが期待できる.
|
次年度使用額が生じた理由 |
行動データを計測する環境整備ならびに計測した行動データに対してクラウドソーシングによって文章付けを行う作業の進捗が遅れている.次年度ではこれら作業を実施するため,環境整備に必要なセンサー,計測データのストレージ,計算機の購入,ならびにクラウドソーシングによる外部委託費が必要となる.したがって,上記の次年度使用額を請求する.
|
次年度使用額の使用計画 |
周囲環境や環境中の物体を詳細に計測するための色・深さセンサー,計測したデータを蓄積する外部ストレージ,およびそれらデータを処理するための計算機を購入する. 計測した行動データをWEB上にて閲覧できるようにし,クラウドソーシングの枠組みにて不特定多数の人がそれを見ながら行動に文章を付与する作業を依頼する.付与した文章に応じて作業費を次年度使用額から支出する.
|