2019 Fiscal Year Annual Research Report

聞き手モデルに基づく能動的音声合成に関する研究

Research Project

Project/Area Number	18J22090
Research Institution	The University of Tokyo
Principal Investigator	齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)
Project Period (FY)	2018-04-25 – 2021-03-31
Keywords	音声合成 / 声質変換 / 深層学習
Outline of Annual Research Achievements	本研究課題では、人間の音声知覚を統計的にモデル化し、多様な音声を自在に生成・制御可能な音声合成技術の実現を目指している。具体的には、音声合成技術により生成される合成音声の高品質化に加え、所望の合成音声を生成するために、音声合成に対する補助的な入力（例えば、音声の話者を表す特徴量）を利用者が探索的に与える必要があったという従来技術の問題点を解決する。このような技術は、音声バーチャルリアリティによる身体的制約を超えた自己表現の拡張や、実際に利用される環境に適応可能な音声合成技術の実現に応用できると考える。今年度は特に、①人間の聴覚特性を考慮した高品質なテキスト音声合成と②利用者の主観的印象を考慮した話者ベクトルによる声質変換・話者補間の2つに取り組んだ。①では、人間の聴覚特性を考慮した敵対的学習に基づくを提案し、従来法と比較してテキスト音声合成の品質が有意に改善することを示した。この研究成果は、国際音声コミュニケーション学会ISCAのフラッグシップ論文誌であるComputer Speech & Language誌に採録された。②では、クラウドソーシングによる大規模主観スコアリングの結果から学習される、主観的話者間類似度（どの話者とどの話者が主観的に似ているかの度合い）に基づく話者ベクトルを用いた多対多声質変換技術の実験的評価を中心に研究を実施した。評価結果から、主観的話者間類似度と強い相関を持つ話者ベクトルは、多対多声質変換モデルの学習に用いていない話者の音声も高い精度で再現できることを示した。この研究成果は、音声合成分野の著名な研究者が集う国際会議Speech Synthesis Workshop 2019にてポスター発表され、聴衆の注目を集めた。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究課題遂行2年目は、1年目に取り組んだ「聞き手の印象を考慮した話者表現の統計的モデリング」のための研究をさらに進展させ、この手法が深層学習に基づく多対多声質変換において合成音声の品質改善に有効であることを実験的に示した。本成果は、音声合成分野の著名な研究者が集う国際会議Speech Synthesis Workshop 2019にてポスター発表され、聴衆の注目を集めた。また、本年度はさらに研究の幅を広げ、人間の聴覚特性を考慮した敵対的学習に基づくテキスト音声合成の学習法（国際音声コミュニケーション学会ISCAのフラッグシップ論文誌であるComputer Speech & Language誌に採録）、聴衆を楽しませるような音声合成・声質変換技術の研究を進展させるための自発音声コーパス構築法（言語資源関連研究分野の国際会議であるLREC2020に採択）、変換元話者の多様性を考慮した敵対的学習に基づく多対一声質変換の学習法（電子情報通信学会の英文誌に条件付き採録）、そして音声信号処理の関連分野（音声認識，話者認証技術）の知見を統合した深層学習に基づく多対多声質変換の学習法（日本音響学会の英文誌に条件付き採録）の研究を実施した。以上より、研究課題遂行2年目は、おおむね順調に研究が進展したと言える。
Strategy for Future Research Activity	次年度は、主観的話者間類似度スコアがすべての話者ペアに対して割り当てられていない半教師あり条件下における学習法を検討する。さらに、利用者からのフィードバックに基づく対話的な話者ベクトル制御のためのアルゴリズムも提案する。

Research Products
(5 results)

All 2020 2019

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (4 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Vocoder-free text-to-speech synthesis incorporating generative adversarial networks using low-/multi-frequency STFT amplitude spectra2019
- Author(s)
  Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
- Journal Title
  
  Computer Speech & Language
  
  Volume: 58 Pages: 347～363
- DOI
  https://doi.org/10.1016/j.csl.2019.05.008
- Peer Reviewed / Open Access
[Presentation] SMASHコーパス：ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス2020
- Author(s)
  齋藤佑樹, 高道慎之介, 猿渡洋
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] DNN-based speaker embedding using subjective inter-speaker similarity for multi-speaker modeling in speech synthesis2019
- Author(s)
  Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
- Organizer
  The 10th ISCA Speech Synthesis Workshop (SSW)
- Int'l Joint Research
[Presentation] 音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習2019
- Author(s)
  齋藤佑樹，阿久澤圭, 橘健太郎
- Organizer
  日本音響学会 2019年秋季研究発表会
[Presentation] 主観的話者間類似度に基づくDNN話者埋め込みを用いた多数話者DNN音声合成の実験的評価2019
- Author(s)
  齋藤佑樹, 高道慎之介, 猿渡洋
- Organizer
  日本音響学会 2019年秋季研究発表会

2019 Fiscal Year Annual Research Report

聞き手モデルに基づく能動的音声合成に関する研究

Principal Investigator

齋藤 佑樹 東京大学, 情報理工学系研究科, 特別研究員(DC1)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Vocoder-free text-to-speech synthesis incorporating generative adversarial networks using low-/multi-frequency STFT amplitude spectra2019

Author(s)

Journal Title

DOI

[Presentation] SMASHコーパス：ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス2020

Author(s)

Organizer

[Presentation] DNN-based speaker embedding using subjective inter-speaker similarity for multi-speaker modeling in speech synthesis2019

Author(s)

Organizer

[Presentation] 音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習2019

Author(s)

Organizer

[Presentation] 主観的話者間類似度に基づくDNN話者埋め込みを用いた多数話者DNN音声合成の実験的評価2019

Author(s)

Organizer

齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)