聞き手モデルに基づく能動的音声合成に関する研究

研究課題

研究課題/領域番号	18J22090
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
研究分野	知能情報学
研究機関	東京大学
研究代表者	齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)
研究期間 (年度)	2018-04-25 – 2021-03-31
研究課題ステータス	完了 (2020年度)
配分額 *注記	2,500千円 (直接経費: 2,500千円) 2020年度: 800千円 (直接経費: 800千円) 2019年度: 800千円 (直接経費: 800千円) 2018年度: 900千円 (直接経費: 900千円)
キーワード	音声合成 / 声質変換 / 深層学習
研究実績の概要	本研究課題では、人間の音声知覚を統計的にモデル化し、多様な音声を自在に生成・制御可能な音声合成技術の実現を目指している。具体的には、音声合成技術により生成される合成音声の高品質化に加え、所望の合成音声を生成するために用いる、音声合成に対する補助的な入力（例えば、音声の話者を表す特徴量）の解釈性の低さといった従来技術の問題点を解決する。このような技術は、音声バーチャルリアリティによる身体的制約を超えた自己表現の拡張や、実際に利用される環境に適応可能な音声合成技術の実現に応用できると考える。今年度は特に、①利用者の主観的印象のグラフ表現を用いた話者ベクトル学習、 ②主観的印象スコア収集と話者ベクトル学習を反復するactive learningの2つに取り組んだ。①では、複数話者間の知覚的な類似度という関係性をグラフで表現し、深層学習に基づくグラフ表現学習により話者を表す特徴量（話者ベクトル）を学習する手法を提案した。実験的評価により、グラフ学習により得られた話者ベクトルが合成音声の自然性改善に最も有効であることを示した。この研究成果は、日本音響学会粟屋潔学術奨励賞を受賞している。②では、話者間類似度の知覚評価と話者ベクトル学習を反復し、解釈しやすい話者ベクトルを少ない計算コスト・評価コストで学習する手法を提案した。課題遂行最終年度である本年度は、研究成果の総括も行った。これまでの研究成果をまとめた原著論文は、音声信号処理分野におけるフラッグシップ論文誌であるIEEE/ACM TASLP誌に採録された。さらに、本研究課題の研究成果を含めて作成した博士論文は非常に高く評価され、東京大学大学院情報理工学研究科において、各専攻から最も優れた博士課程学生を1名ずつ選出して授与される研究科長賞を受賞した。
現在までの達成度 (段落)	令和2年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和2年度が最終年度であるため、記入しない。

報告書

(3件)

研究成果
(13件)

すべて 2021 2020 2019 2018

すべて雑誌論文 (4件) (うち国際共著 1件、査読あり 4件、オープンアクセス 4件) 学会発表 (9件) (うち国際学会 2件)

[雑誌論文] Non-parallel and many-to-many voice conversion using variational autoencoders integrating speech recognition and speaker verification2021
- 著者名/発表者名
  Saito Yuki、Nakamura Taiki、Ijima Yusuke、Nishida Kyosuke、Takamichi Shinnosuke
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 42 号: 1 ページ: 1-11
- DOI
  10.1250/ast.42.1
- NAID
  130007965442
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2021-01-01
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Perceptual-similarity-aware deep speaker representation learning for multi-speaker generative modeling2021
- 著者名/発表者名
  Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 29 ページ: 1033-1048
- DOI
  10.1109/taslp.2021.3059114
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Joint Adversarial Training of Speech Recognition and Synthesis Models for Many-to-One Voice Conversion Using Phonetic Posteriorgrams2020
- 著者名/発表者名
  SAITO Yuki、AKUZAWA Kei、TACHIBANA Kentaro
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E103.D 号: 9 ページ: 1978-1987
- DOI
  10.1587/transinf.2019EDP7297
- NAID
  130007894624
- ISSN
  0916-8532, 1745-1361
- 年月日
  2020-09-01
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Vocoder-free text-to-speech synthesis incorporating generative adversarial networks using low-/multi-frequency STFT amplitude spectra2019
- 著者名/発表者名
  Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
- 雑誌名
  
  Computer Speech & Language
  
  巻: 58 ページ: 347-363
- DOI
  10.1016/j.csl.2019.05.008
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[学会発表] 主観的話者間類似度を考慮したDNN話者埋め込みのためのActive Learning2021
- 著者名/発表者名
  齋藤佑樹, 高道慎之介, 猿渡洋
- 学会等名
  情報処理学会音声言語情報処理研究会
- 関連する報告書
  2020 実績報告書
[学会発表] 主観的話者間類似度のグラフ埋め込みに基づくDNN話者埋め込み2020
- 著者名/発表者名
  齋藤佑樹, 高道慎之介, 猿渡洋
- 学会等名
  日本音響学会 2020年秋季研究発表会
- 関連する報告書
  2020 実績報告書
[学会発表] SMASHコーパス：ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス2020
- 著者名/発表者名
  齋藤佑樹, 高道慎之介, 猿渡洋
- 学会等名
  日本音響学会 2020年春季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] DNN-based speaker embedding using subjective inter-speaker similarity for multi-speaker modeling in speech synthesis2019
- 著者名/発表者名
  Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
- 学会等名
  The 10th ISCA Speech Synthesis Workshop (SSW)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] 音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習2019
- 著者名/発表者名
  齋藤佑樹，阿久澤圭, 橘健太郎
- 学会等名
  日本音響学会 2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] 主観的話者間類似度に基づくDNN話者埋め込みを用いた多数話者DNN音声合成の実験的評価2019
- 著者名/発表者名
  齋藤佑樹, 高道慎之介, 猿渡洋
- 学会等名
  日本音響学会 2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] 音素事後確率とd-vectorを用いたノンパラレル多対多VAE音声変換における学習データ量とd-vector次元数に関する評価2019
- 著者名/発表者名
  中村泰貴，齋藤佑樹，西田京介，井島勇祐，高道慎之介
- 学会等名
  日本音響学会 2019年春季研究発表会
- 関連する報告書
  2018 実績報告書
[学会発表] DNN音声合成に向けた主観的話者間類似度を考慮したDNN話者埋め込み2019
- 著者名/発表者名
  齋藤佑樹，高道慎之介，猿渡洋
- 学会等名
  日本音響学会 2019年春季研究発表会
- 関連する報告書
  2018 実績報告書
[学会発表] Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors2018
- 著者名/発表者名
  Yuki Saito, Yusuke Ijima, Kyosuke Nishida, and Shinnosuke Takamichi
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)
- 関連する報告書
  2018 実績報告書
- 国際学会

聞き手モデルに基づく能動的音声合成に関する研究

研究代表者

齋藤 佑樹 東京大学, 情報理工学系研究科, 特別研究員(DC1)

2,500千円 (直接経費: 2,500千円)

報告書

研究成果

[雑誌論文] Non-parallel and many-to-many voice conversion using variational autoencoders integrating speech recognition and speaker verification2021

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Perceptual-similarity-aware deep speaker representation learning for multi-speaker generative modeling2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Joint Adversarial Training of Speech Recognition and Synthesis Models for Many-to-One Voice Conversion Using Phonetic Posteriorgrams2020

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Vocoder-free text-to-speech synthesis incorporating generative adversarial networks using low-/multi-frequency STFT amplitude spectra2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 主観的話者間類似度を考慮したDNN話者埋め込みのためのActive Learning2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 主観的話者間類似度のグラフ埋め込みに基づくDNN話者埋め込み2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] SMASHコーパス：ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] DNN-based speaker embedding using subjective inter-speaker similarity for multi-speaker modeling in speech synthesis2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 主観的話者間類似度に基づくDNN話者埋め込みを用いた多数話者DNN音声合成の実験的評価2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音素事後確率とd-vectorを用いたノンパラレル多対多VAE音声変換における学習データ量とd-vector次元数に関する評価2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] DNN音声合成に向けた主観的話者間類似度を考慮したDNN話者埋め込み2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors2018

著者名/発表者名

学会等名

関連する報告書

齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)