研究課題/領域番号 |
18H04128
|
研究機関 | 早稲田大学 |
研究代表者 |
小林 哲則 早稲田大学, 理工学術院, 教授 (30162001)
|
研究分担者 |
藤江 真也 千葉工業大学, 先進工学部, 教授 (00367062)
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 会話システム / 会話のリズム / 発話タイミング推定 / 会話音声合成 / 低遅延音声認識 |
研究実績の概要 |
会話相互行為の時間構造のモデル化によってリズムの良い会話を実現し,会話による情報伝達の効率化に役立てることを試みた。20,21年度は,a.発話タイミングのモデル化,b.ユーザ応答の不活性化の要因調査,c.多様な表現を可能とする音声合成方式,d.低遅延音声認識方式の4点を中心に検討した。a.は,時間構造に直結するテーマ,b.はリズム形成の阻害要因調査,c.,d.はリズム形成にための主要要素技術という位置づけである。 a.については,対話行為認識を補助タスクとして組込むことの効果について検討した。音響・言語情報を用いるTransformer型のタイミング推定器に対し,対話行為推定を組み込むことで,25msF値(推定誤差が25ms以内で正解とする基準によるF値)は0.41,50msF値は0.63となり,組み込まない場合に比べそれぞれ14%,2%向上した。 b.については,会話コンテンツのリアリティ(実際の会話に出現したものか,人為的に作成したものか)の観点から整理した。会話の進行シナリオと合成音それぞれのリアリティが,ユーザ応答の活性度に有意に影響することを確認した。 c.については,センテンスコードと感情コードを用いて発話表現を自動分類しながらモデルを学習する手法を基礎として,これにDirichlet分布を用いたVariational Auto-Encoder構造,感情コードのアニーリング,Factor Analyzer構造などを導入した。受聴試験により,合成音声の品質を劣化させることなく,指定した発話表現を実現できることを確認した。 d.については,mask型Non-Autoregressive言語モデルをCTC音響モデルの学習時に併用すると,言語制約をCTC内に織り込むことができ,実行時はCTCだけでも少ない先読みで動作可能となり,低遅延で動作することを明らかにした。
|
現在までの達成度 (段落) |
令和2年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和2年度が最終年度であるため、記入しない。
|