研究課題/領域番号 |
26540133
|
研究機関 | 東京大学 |
研究代表者 |
高野 渉 東京大学, 情報理工学(系)研究科, 准教授 (30512090)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 身体運動 / 自然言語 / 動作認識 / 統計モデル |
研究実績の概要 |
研究代表者は,人間の身体運動と自然言語を結びつけるロボットの知能を構築してきた.少数の身体運動や言語表現のデータセットから記述できる行動は限られ,実世界の多様な人間の行動を理解するには限界があった.本研究課題では,これまでの枠組みを,身体運動,身体が働きかける物体,および言語表現の膨大なデータセットに拡張することにより,人間の行動を多様にかつ詳細に言語として理解する知能を構築する.平成26年度では.運動とそれに関連する膨大な単語を結びつける統計モデルを開発した.各単語を書籍毎に使用される頻度に基づき分類し,その分類結果を用いて運動と単語を効果的に結びつけることによって,運動に人手によってラベル付されていないが,関係がある単語もその運動から連想できる構造を作りあげた.さらに,単語の並びとして文章構造を抽出する統計モデルとして,単語bigramモデル(ある単語の出現する確率はその直前の単語にのみ依存する)と呼ばれる最も簡易な構造を活用してきた.これを,単語trigramモデル(単語の出現規則は直前の2つの単語に依存する)へと拡張した.これにより,運動から自然な構造の文章が生成できるようになった.光学式モーションキャプチャにて計測した470種類の動作と青空文庫に納められている10925冊の書籍を用いて,実験を行った.動作から文章を1つ生成する実験では,正解の文章と一致する確率が35.7%であった.5つの文章候補を生成し,その中に正解文章が含まれる確率は86.6%であった.また,膨大な言語データを活用したことによって,動作から文章を生成する計算に2520秒も要する問題が明らかになった.文章生成計算のための並列アルゴリズムを開発し,クラウドコンピュータ(Amazon EC2)を用いた実験によって,文章生成の計算時間を228秒に低減することに成功した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実世界の多様な行動を言語として理解する計算基盤を構築するため,平成26年度は,(A)身体運動と環境の記号化,(B)身体と環境の共起性の抽出,(C)身体と環境と言語の数理モデルの構築,(D)実世界データからの言語生成計算法の開発,に取り組む計画であった.各研究項目における進捗状況は下記の通りである.(A)身体運動の記号化はこれまでの統計モデルを活用できることを確認した.環境中の物体認識手法については,深度センサにて取得したポイントクラウドから分節化し,色情報を利用して物体を認識する手法が利用できることを確認した.計画通り順調に進捗している.(B)運動と認識した物体の共起性を表現する統計モデルの開発にはまだ着手できていない.(C)膨大な言語データセットを利用して,身体と言語を結びつける数理モデルの基盤は構築できた.特に,電子書籍の膨大な言語データを扱えるように,文章の統計モデルの拡張,運動と言語を結びつけるモデルの並列処理アルゴリズムの開発は,研究計画より進んでいる.一方,このモデルに環境中の物体などの情報を組み込むための方法をまだ定めるに至っていない.(D)モーションキャプチャにて実世界の動作データを文章へ変換する計算アルゴリムは完成した.実験によって5つの文章候補を生成することによって,高い精度で動作を言語して認識できることを確認できている.一方,環境中の物体情報の活用には至っていない.以上のように,動作と言語を結びつける統計モデルの開発においては,大規模なデータが扱えるように拡張可能な枠組みを構築,計算時間の増加に対する並列化アルゴリズムによる高速化法など計画当初より進んでいる.しかし,環境情報については,物体認識手法の開発に留まっており,物体を動作と言語へ結ぶ付ける数理モデルの開発がやや遅れている.
|
今後の研究の推進方策 |
平成27年度では,物体認識結果によって得られた物体と動作および言語を結びつける統計モデルの開発に重点を置く. まずは,動作とその周囲の状況を同期して記録するための計測環境を整備する.深度センサを利用して,動作および周囲状況を同時に計測できるかどうか,深度センサは環境情報の取得に留め,動作はこれまで通り光学式モーションキャプチャにて計測するかなど,複数のセンサをどのように組み合わせて行動を計測するか計測実験を重ねて計測環境を整える.計測した行動に言語情報を付与する作業について,クラウドソーシングなども利用して効率的にデータ収集を行えるような枠組みを構築する. 環境中に置かれた物体が1つの場合は,これまでの動作と言語を結びつける統計モデルに物体を組み込むように拡張する方法は容易である.しかし,物体が複数置かれ,それらに身体が作用する状況で,その行動を記述するためにこれまでの統計モデルをどのように拡張するかも視野に入れて,運動.環境.言語の統計ネットワークの数理モデルを開発する.これは,動作に伴うアテンションの推定とも関連する問題へ,膨大な行動に関するデータセットから接近する. また,これまでの動作と言語を結びつける統計モデルでは,各一瞬の動作とその動作に付与された文章の関係を学習しているに過ぎず,以前にどのような動作をしたのか,動作が進んでいる場所はどこかといった文脈状況が欠落している.動作および文章の時系列データを扱えるようにこれまでの統計モデルを拡張すること,物体認識手法を利用して場所を推定し,その場所から語彙を限定することによって,行動から文章を生成する精度の向上,および計算時間の削減を狙う.
|
次年度使用額が生じた理由 |
本研究課題では,行動を言語として理解する知能基盤を構築するにあたり,これまでの身体動作だけでなく,その動作が働きかける物体を考慮した行動認識法を開発することを目的としている,しかし,物体を認識する計算法の開発が計画当初より遅れている.そのため,平成26年度では,体データを記憶するデータストレージを購入する必要がなかった.しかし,平成27年度では,物体情報を動作や言語と結ぶつける数理モデルの開発に重点をおいて研究を進める.それに伴い,膨大な環境データを取得予定であり,それらを記憶するストレージが必要不可欠となる.そのため,上記次年度使用額を申請する.
|
次年度使用額の使用計画 |
多様な状況下で数多くの動作とその周囲の環境に関するデータを収集する.特に,環境データは,RGBDカメラで計測予定であり,周囲の状況が3次元位置と色(RGB)の6次元の点の集合として表現される.この膨大な点データを蓄積するための外部ストレージを購入する.
|