本研究課題では,まず,ユーザ発話の言語的情報と韻律情報を入出力に利用するニューラルベース音声応答モデルの検討を行った.提案モデルでは,ユーザ発話の単語系列とその平均対数F0系列を入力とし,応答発話とその韻律を制御する差分F0コンテキスト系列を出力する.実験結果より,提案手法はベースラインよりも自然音声に近いF0系列が得られることを確認した.続いて,音声応答モデルを表情制御信号を考慮できるように拡張したマルチモーダル応答生成モデルを検討した.このモデルは,ユーザ発話の単語系列と韻律・表情特徴量を順次入力し,システム応答の各単語に対応する韻律・表情制御信号を出力する.韻律・表情特徴量は対応する単語区間の平均対数F0,平均AU である.実験により,入力情報として複数のモダリティを考慮することでモデルの性能が向上することを示唆する結果を得た. 提案モデルの学習には二者の自由対話のデータを用いた.自然発話音声を対象とした応答生成モデルの学習効率を向上させるため,Twitterから収集されたツイート・リプライ対に対して,フィラー挿入を行うデータ拡張手法を提案した.この手法では,従来手法に比べてF値ベースで高い性能で書き言葉にフィラーを挿入することができる. さらに,マルチモーダル情報を利用した応答タイミング推定モデルを検討した.この研究では,既存手法であるResponse Timing Networkに対して,対話コンテキストエンコーダを導入したモデルを提案した.結果より,提案手法は画像情報を組み合わせることで,将来のシステム発話を利用することなく先行研究と同等の性能が得られることが示された. 本研究課題はこれらの成果により,全体として6件の国内学会・研究会発表,4件の国際会議発表,1件の特許出願を行った.
|