今年度は,前年度で開発した視覚認識システムを発展させ,視覚情報の他に聴覚や触覚情報などを利用したマルチモーダルな認識・学習手法を提案した.提案手法は,MLDA(Multimodal Latent Dirichlet Allocation)を階層化したmMLDA(multilayered MLDA)である.下層のMLDAでは下位概念である,物体や動きなどの概念(「カテゴリ」)がそれぞれ形成され,上層の MLDA ではこれらの概念を統合する上位概念が形成される.これより例えば,下位概念として「飲み物」という物体概念や「物を口に運ぶ」という動き概念などが形成される.上位層ではこれらの関係性が学習され,「飲む」という動作概念が形成される.また,「飲み物」を見ることで「それを口に運ぶ」という動きや「飲む」という動作などといった未観測情報の予測を行うことが可能となる.この内容に関して,国内及び国外で既に発表し,論文誌に掲載された. さらに,mMLDAより形成された多様な概念を利用し,同時に語意や文法を獲得することで,観測したシーンを文章で表現する手法を提案する.ここで扱う問題は,階層的な概念における語意の獲得であり,どの階層のどの概念にどの単語が結び付くかという問題を解く必要がある.提案手法では,単語と概念間の相互情報量を用いる.これによって,どの単語が本来どの概念に結び付いているのかを自動的に推定することが可能であり,各単語に対応する,物体,場所や人などといった概念クラスの推定が可能である.従って,教示発話における概念クラスの生起順を学習することで,概念クラスの遷移確率という形で表現される確率文法を学習することができる.これによって,ロボットによる言語の意味理解や生成を実現することが可能となる.この内容に関して,国内及び国外で既に発表し,論文誌へ投稿する予定である.
|