記号接地問題を,マルチモーダル情報におけるモダリティ間の関係性の学習と捉えると,部分記号接地問題はモダリティごとに事前学習したモデルを上位のモデルで統合し,全体を少量の全モダリティ共起データで学習することで,それらの関係を学習する問題と考えることができる.そこで,事前学習済みモデルをそれぞれのモダリティのエンコーダとして利用し,それらの出力をTransformerエンコーダで統合する手法を提案した.具体的には二つのモデルを提案した.一つ目はMultimodal Transformer Encoderの出力から入力を分類するモデルである.二つ目はマルチモーダル情報を入力としてあるモダリティの情報を生成するモデルである.提案手法ではそれぞれのモダリティについて事前学習したエンコーダを用いることで,マルチモーダル情報としては未知の表現であっても,それらのエンコーダによって既知の表現に近い情報が与えられると考える.またそれらの出力を統合したものをTransformerエンコーダへの入力とし,Self-Attention機構によって入力全体を俯瞰してモダリティ間の関係性を双方向に学習する.この方法ではモダリティの変更や追加時には事前学習済みエンコーダ部分を変更または追加し,その出力を続けて統合すれば良い. 実験ではCMU-MOSIとMM-IMDbの二つのベンチマークデータセットを用いてマルチモーダル情報を分類した.提案手法はどちらのデータセットに対しても,State-of-the-Artを達成した.また提案手法では、本来の訓練用データセットの25%から50%程度の量でも既存研究と同等のパフォーマンスが得られることが分かった.マルチモーダル情報の生成実験では提案モデルを用いて言語情報と音声情報から表情情報を生成した.提案モデルでは発話のタイミングと内容に沿った生成結果が得られた.
|