2021 年度研究成果報告書

対話型AIのための音声と身体表現の同時生成に基づく自然なインタラクションの実現

研究課題

PDF

研究課題/領域番号	20K19903
研究種目	若手研究
配分区分	基金
審査区分	小区分61060:感性情報学関連
研究機関	日本電信電話株式会社NTTコミュニケーション科学基礎研究所
研究代表者	千葉祐弥日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (30780936)
研究期間 (年度)	2020-04-01 – 2022-03-31
キーワード	音声対話システム / マルチモーダル情報処理 / 応答生成
研究成果の概要	近年対話システムの分野において盛んに研究が行われているニューラルベース応答生成において，ユーザ発話の言語的情報と韻律情報を考慮する音声応答モデルを検討した．提案手法では，ベースラインよりも自然音声に近いF0系列が得られることを確認した．さらに，表情制御信号を扱えるように提案手法を拡張したマルチモーダル応答生成モデルを検討した．実験により，入力情報として複数のモダリティを考慮することでモデルの性能が向上できる可能性を示唆する結果を得た．加えて、マルチモーダル情報を利用した応答タイミング推定モデルを提案した．全体で6件の国内学会・研究会発表，4件の国際会議発表，1件の特許出願を行った．
自由記述の分野	対話システム
研究成果の学術的意義や社会的意義	本課題では，近年盛んに研究されているニューラルベースの応答生成技術が言語情報だけでなく韻律や表情といった非言語情報も扱えること，また人間のコミュニケーションにおける社会的な現象を考慮できる可能性があることを示した．加えて，そのような非言語ベースの応答生成において効果的にモデルを学習するためのデータ拡張手法，自然なタイミング・間での応答を実現する応答タイミング推定手法も提案し，それぞれ一定の効果が得られた．これらの検討より，非言語情報を取り入れた対話システムの応答生成研究における有益な知見を提供できたと考える．本研究の成果は今後ますます重要性を増す対話システムの自然性の向上に寄与するものである．