Publicly Offered Research
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
現状の対話システムは,陽に意味を扱っていない.一方,人間側は意味理解に基づいて対話を行う.このギャップは,対話の継続や再度対話する意思を阻害する.これに対して,ロボットが自身の身体を利用して,環境や人と相互作用することで言語を獲得するアルゴリズムの開発も進んでいる.しかし,このアプローチの問題は,経験するための機会や時間が膨大になることである.そこで本研究では,記号接地と記号非接地を融合させた意味理解モデル(部分記号接地モデル)に基づいた,マルチモーダル対話基盤の構築することを目指す.この基盤技術により,すべてを経験せずに言葉の意味を理解し,人と対話できるロボットの実現を目指す.
記号接地問題を,マルチモーダル情報におけるモダリティ間の関係性の学習と捉えると,部分記号接地問題はモダリティごとに事前学習したモデルを上位のモデルで統合し,全体を少量の全モダリティ共起データで学習することで,それらの関係を学習する問題と考えることができる.そこで,事前学習済みモデルをそれぞれのモダリティのエンコーダとして利用し,それらの出力をTransformerエンコーダで統合する手法を提案した.具体的には二つのモデルを提案した.一つ目はMultimodal Transformer Encoderの出力から入力を分類するモデルである.二つ目はマルチモーダル情報を入力としてあるモダリティの情報を生成するモデルである.提案手法ではそれぞれのモダリティについて事前学習したエンコーダを用いることで,マルチモーダル情報としては未知の表現であっても,それらのエンコーダによって既知の表現に近い情報が与えられると考える.またそれらの出力を統合したものをTransformerエンコーダへの入力とし,Self-Attention機構によって入力全体を俯瞰してモダリティ間の関係性を双方向に学習する.この方法ではモダリティの変更や追加時には事前学習済みエンコーダ部分を変更または追加し,その出力を続けて統合すれば良い.実験ではCMU-MOSIとMM-IMDbの二つのベンチマークデータセットを用いてマルチモーダル情報を分類した.提案手法はどちらのデータセットに対しても,State-of-the-Artを達成した.また提案手法では、本来の訓練用データセットの25%から50%程度の量でも既存研究と同等のパフォーマンスが得られることが分かった.マルチモーダル情報の生成実験では提案モデルを用いて言語情報と音声情報から表情情報を生成した.提案モデルでは発話のタイミングと内容に沿った生成結果が得られた.
令和3年度が最終年度であるため、記入しない。
All 2022 2021 2020
All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (5 results) (of which Int'l Joint Research: 1 results, Invited: 3 results)
IEEE Access
Volume: 10 Pages: 29821-29833
10.1109/access.2022.3159346
Advanced Robotics
Volume: 36 Issue: 1-2 Pages: 17-32
10.1080/01691864.2021.2012512