研究課題/領域番号 |
20K19903
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
千葉 祐弥 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (30780936)
|
研究期間 (年度) |
2020-04-01 – 2022-03-31
|
キーワード | 音声対話システム / マルチモーダル情報処理 / 応答生成 |
研究実績の概要 |
令和2年度はまず,自然発話音声を対象とした応答生成モデルを学習するためのデータ拡張手法を検討した.この検討では,Twitterから収集されたツイート・リプライ対に対して,フィラー挿入を行うモデルを提案した.提案モデルは目標コーパスであるSpontaneous Multimodal One-on-one Chat-talk (SMOC)からフィラー挿入位置を学習する.ここでは,CascadeモデルとSimultaneousモデルの2つのモデルを比較した.結果より,提案モデルがベースラインと比較してF値ベースで高い性能を示すことを確かめた. 続いて,ユーザ発話の言語的情報と韻律情報を用いる音声応答生成モデルの検討を行った.提案モデルはユーザ発話の単語系列とその平均対数F0系列を入力とし,応答発話とその韻律を制御する差分F0コンテキスト系列を出力するモデルである.ネットワークの構造として同時モデルと連結モデルの2つを比較した.対数F0に関する客観評価において,連結モデルでベースラインの合成音声よりも高いスコアが得られた.また,主観評価において,より対話に近い韻律の音声が生成できることを確かめた. また,ユーザの親しみを考慮した対話を行う対話システムの構築を目標として,言語・非言語的対話行動の分析と認識モデルの構築を行った.分析では,対話時に付与された話者本人の対話相手に対する親しみのスコアとマルチモーダル情報の対応を分析した.分析結果から,親しみの段階によって,口調や話速の同調量,笑顔に関するAUの相関,視線の変動量に差があることが示された.つづいて,分析結果から得られた知見をもとに,マルチモーダル特徴量を導入した親しみの認識モデルを構築した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
東北大学との共同研究により,当初計画していた韻律情報を含む応答生成手法に関して,データ拡張手法と提案する音声応答モデルの検討を効果的に行うことができた.これにより,2件の国内会議発表と1件の国際会議発表を行った.さらに,もう一件,国際会議にも投稿を行った.これらの研究成果は令和3年度の研究の足掛かりとなることが期待される. 一方で,ユーザの親密さに基づく対話システムの検討についても,人間同士の対話における話者の行動を詳細に分析し,1件の国内会議発表を行った.また,分析結果に基づく親しみの認識モデルに関しても理論の構築・実装・評価を行うことができた.この結果は現在国際会議に投稿中である.加えて,これらの研究成果に着想を得て,マルチモーダル情報を用いた応答タイミング推定に関しても検討を行うことができた.こちらの研究成果は1件の国内会議発表を行うとともに国際会議に投稿中である.
|
今後の研究の推進方策 |
昨年度構築した音声応答生成モデルを表情やジェスチャといったマルチモーダル情報に拡張する.この際,会話分析の知見を導入し,話者同士の表情や韻律情報の同調を再現可能なネットワークを構築する.まずは昨年度の提案手法の入出力を単純に拡張した場合を検討し,その後,ネットワークの構造に関して検討を行う.最終的には客観評価・主観評価の両方を実施する. ユーザの親しみを考慮した対話システムに関しては,分析結果に基づくマルチモーダル応答生成手法の検討を行う.Transformerベースのモデルを話者の親しさに基づいて適応することで,発話の親しみを制御できる応答生成モデルの構築を目指す.また,構築した対話制御モデルを導入した対話システムを実装し,評価する.
|
次年度使用額が生じた理由 |
当初の予定では旅費に予算を計上していたが,本テーマ採択後に研究代表者が所属機関を移ったためその分の予算が余剰になった.昨年度からのコロナ禍のため,そもそも海外出張が行えなかったことも影響がある.加えて,計画では被験者を募集し,対話データの収集・評価を行う予定であったが,同様に人間を介した実験を行うことができなかった.令和3年度は,コロナ禍が落ち着き次第データ収集を実施するとともに,対話実験によるユーザ評価を行う予定である.また,近年の深層学習技術の急速な発展に伴い,より高度な計算機が必要となったため,物品購入にも充てる予定である.
|