2022 Fiscal Year Research-status Report

Speech Processing Based on Deep Gaussian Process With Stochastic Differential Equation Layers

Research Project

Project/Area Number	21K11955
Research Institution	CyberAgent, Inc. AI tech studio AI Lab
Principal Investigator	郡山知樹株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, - (50749124)
Co-Investigator(Kenkyū-buntansha)	猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	機械学習 / 深層学習 / 長文音声合成 / ガウス過程
Outline of Annual Research Achievements	近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は，大量の音声データを用いて大量のパラメータを学習する手法である．しかし，音声は言語・方言や話者，話し方や周囲の環境など多様性が非常に高いため，あらゆる音声を収録することは非常に困難である．そのため，例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように，大量のパラメータを用いることに適さない音声情報処理が多く存在する．そこで本研究の目的は，少量のパラメータであっても複雑な関数を表現可能である，層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理，特に音声合成における有効性を調査することである．今年度は，深層ガウス過程に基づく音声合成における畳み込み層の有効性を示した．これによって，DNNと同様の機能を持つ層を，より性能の高いDGPでも実現できることを示した．また，時間的な連続性を表現するための前段階として，長文音声合成の基盤作成を行った．具体的には，長文の中で知覚的な影響の大きいポーズを，事前学習済み言語モデルを用いて予測する手法を提案し，より自然な長文音声合成を実現することに成功した．この成果により，テキストと音声の時間軸方向の伸縮を適切に行うことの重要性が明らかになり，層の深層方向および時間軸方向のモデル化への指針が示された．
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 本研究の目標である層の微分方程式表現を用いたモデルの検討であるが，本年度の成果は部分的な機能の評価や，長文音声合成の基盤作成に留まったことから，進捗は遅れていると言える．
Strategy for Future Research Activity	今後の研究は，まずseq2seq DGP音声合成に層の微分方程式表現を導入することである．その後，微分方程式表現のメリットである逆演算を用いて，話者やアクセントなど潜在的な表現を獲得する手法の開発を目指す．また，長文音声合成の成果を活かし，時間軸方向の連続性にも微分方程式表現が有効であることを示す．

Research Products
(4 results)

All 2023 2022

All Presentation (4 results) (of which Int'l Joint Research: 1 results)

[Presentation] DURATION-AWARE PAUSE INSERTION USING PRE-TRAINED LANGUAGE MODEL FOR MULTI-SPEAKER TEXT-TO-SPEECH2023
- Author(s)
  Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, Hiroshi Saruwatari
- Organizer
  ICASSP 2023
- Int'l Joint Research
[Presentation] More differentiated pause insertion for phoneme-based multi-speaker TTS models2023
- Author(s)
  楊棟，郡山知樹，齋藤佑樹，佐伯高明，辛徳泰、猿渡洋
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価2022
- Author(s)
  中村泰貴，郡山知樹，猿渡洋
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis2022
- Author(s)
  楊棟，郡山知樹，猿渡洋
- Organizer
  日本音響学会2022年秋季研究発表会

2022 Fiscal Year Research-status Report

Speech Processing Based on Deep Gaussian Process With Stochastic Differential Equation Layers

Principal Investigator

郡山 知樹 株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, - (50749124)

Current Status of Research Progress

Reason

Research Products

[Presentation] DURATION-AWARE PAUSE INSERTION USING PRE-TRAINED LANGUAGE MODEL FOR MULTI-SPEAKER TEXT-TO-SPEECH2023

Author(s)

Organizer

[Presentation] More differentiated pause insertion for phoneme-based multi-speaker TTS models2023

Author(s)

Organizer

[Presentation] 深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価2022

Author(s)

Organizer

[Presentation] Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis2022

Author(s)

Organizer

郡山知樹株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, - (50749124)