2018 Fiscal Year Annual Research Report

聞き手モデルに基づく能動的音声合成に関する研究

Research Project

Project/Area Number	18J22090
Research Institution	The University of Tokyo
Principal Investigator	齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)
Project Period (FY)	2018-04-25 – 2021-03-31
Keywords	音声合成 / 声質変換 / 深層学習
Outline of Annual Research Achievements	コンピュータを用いて音声を人工的に生成する音声合成技術は、音声コミュニケーション支援のために広く研究されている。本研究課題では、人間の音声知覚を統計的にモデル化し、多様な音声を自在に生成・制御可能な音声合成技術の実現を目的とする。具体的には、所望の合成音声を生成するために、音声合成に対する補助的な入力（例えば、音声の話者を表す特徴量）を利用者が探索的に与える必要があったという従来技術の問題点を解決する。このような技術は、音声バーチャルリアリティによる身体的制約を超えた自己表現の拡張や、実際に利用される環境に適応可能な音声合成技術の実現に応用できると考える。今年度は特に、①変換元・変換先話者の多様性を考慮した声質変換技術のための統計モデリング法と②利用者の主観的印象を考慮した音声合成技術のための話者ベクトル空間構築法の2つに取り組んだ。①では、深層学習に基づく音声認識・話者認証モデルを統合した声質変換技術を提案し、従来法と比較して変換音声の品質が有意に改善し、かつ、学習データに含まれない未知話者の音声も変換可能な技術を実現した。②では、クラウドソーシングによる大規模主観スコアリングを実施し、多数の評価者の主観的話者間類似度に基づく話者ベクトル空間を構築するためのアルゴリズムを提案し、従来手法と比較して、提案手法は主観的話者間類似度と強い相関を持つ話者ベクトルを学習可能であることを示した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 研究課題遂行1年目にして、近年盛んに研究されている深層学習に基づく統計的声質変換において、従来手法よりも高品質な変換音声を生成でき、かつ学習に用いられなかった話者対も変換可能となる画期的な手法を提案している。この成果は、音声・音響信号処理分野のトップカンファレンスであるIEEE ICASSP 2018に採録されており、さらに公益財団法人NEC C&C財団の平成30年度前期国際会議論文発表者助成対象論文の中から選ばれた3件に授与されるC&C若手優秀論文賞と、電子情報通信学会の平成29年度音声研究会研究奨励賞を受賞していることから、その学術的な重要性が非常に高く評価されていることがわかる。同研究成果は、音声信号処理分野の有力な論文誌であるSpeech Communicationに投稿している。また、従来の統計的声質変換・音声合成技術においてこれまでに着手されていなかった「聞き手の印象を考慮した統計的モデリング」のためのアルゴリズムも提案し、従来手法と比較して聞き手の印象と強い相関を持つ特徴量が得られることを実験的に示した。この成果は、3年に1度開催され、音声合成分野の著名な研究者が集う国際会議Speech Synthesis Workshop 2019に投稿予定である。以上より、研究課題遂行1年目にして、期待以上の研究の進展があったと考える。
Strategy for Future Research Activity	次年度は、今年度で取り組んだ内容を統合し、声質変換における提案手法の有効性を検証する。さらに、利用者からのフィードバックに基づき最適な話者ベクトルを予測するアルゴリズムも提案する。

Research Products
(3 results)

All 2019 2018

All Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Presentation] 音素事後確率とd-vectorを用いたノンパラレル多対多VAE音声変換における学習データ量とd-vector次元数に関する評価2019
- Author(s)
  中村泰貴，齋藤佑樹，西田京介，井島勇祐，高道慎之介
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] DNN音声合成に向けた主観的話者間類似度を考慮したDNN話者埋め込み2019
- Author(s)
  齋藤佑樹，高道慎之介，猿渡洋
- Organizer
  日本音響学会 2019年春季研究発表会
[Presentation] Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors2018
- Author(s)
  Yuki Saito, Yusuke Ijima, Kyosuke Nishida, and Shinnosuke Takamichi
- Organizer
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)
- Int'l Joint Research

2018 Fiscal Year Annual Research Report

聞き手モデルに基づく能動的音声合成に関する研究

Principal Investigator

齋藤 佑樹 東京大学, 情報理工学系研究科, 特別研究員(DC1)

Current Status of Research Progress

Reason

Research Products

[Presentation] 音素事後確率とd-vectorを用いたノンパラレル多対多VAE音声変換における学習データ量とd-vector次元数に関する評価2019

Author(s)

Organizer

[Presentation] DNN音声合成に向けた主観的話者間類似度を考慮したDNN話者埋め込み2019

Author(s)

Organizer

[Presentation] Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors2018

Author(s)

Organizer

齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)