2020 Fiscal Year Annual Research Report

聞き手モデルに基づく能動的音声合成に関する研究

Research Project

Project/Area Number	18J22090
Research Institution	The University of Tokyo
Principal Investigator	齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)
Project Period (FY)	2018-04-25 – 2021-03-31
Keywords	音声合成 / 声質変換 / 深層学習
Outline of Annual Research Achievements	本研究課題では、人間の音声知覚を統計的にモデル化し、多様な音声を自在に生成・制御可能な音声合成技術の実現を目指している。具体的には、音声合成技術により生成される合成音声の高品質化に加え、所望の合成音声を生成するために用いる、音声合成に対する補助的な入力（例えば、音声の話者を表す特徴量）の解釈性の低さといった従来技術の問題点を解決する。このような技術は、音声バーチャルリアリティによる身体的制約を超えた自己表現の拡張や、実際に利用される環境に適応可能な音声合成技術の実現に応用できると考える。今年度は特に、①利用者の主観的印象のグラフ表現を用いた話者ベクトル学習、 ②主観的印象スコア収集と話者ベクトル学習を反復するactive learningの2つに取り組んだ。①では、複数話者間の知覚的な類似度という関係性をグラフで表現し、深層学習に基づくグラフ表現学習により話者を表す特徴量（話者ベクトル）を学習する手法を提案した。実験的評価により、グラフ学習により得られた話者ベクトルが合成音声の自然性改善に最も有効であることを示した。この研究成果は、日本音響学会粟屋潔学術奨励賞を受賞している。②では、話者間類似度の知覚評価と話者ベクトル学習を反復し、解釈しやすい話者ベクトルを少ない計算コスト・評価コストで学習する手法を提案した。課題遂行最終年度である本年度は、研究成果の総括も行った。これまでの研究成果をまとめた原著論文は、音声信号処理分野におけるフラッグシップ論文誌であるIEEE/ACM TASLP誌に採録された。さらに、本研究課題の研究成果を含めて作成した博士論文は非常に高く評価され、東京大学大学院情報理工学研究科において、各専攻から最も優れた博士課程学生を1名ずつ選出して授与される研究科長賞を受賞した。
Research Progress Status	令和2年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和2年度が最終年度であるため、記入しない。

Research Products
(5 results)

All 2021 2020

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 2 results) Presentation (2 results)

[Journal Article] Perceptual-Similarity-Aware Deep Speaker Representation Learning for Multi-Speaker Generative Modeling2021
- Author(s)
  Saito Yuki、Takamichi Shinnosuke、Saruwatari Hiroshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 29 Pages: 1033～1048
- DOI
  10.1109/TASLP.2021.3059114
- Peer Reviewed / Open Access
[Journal Article] Non-parallel and many-to-many voice conversion using variational autoencoders integrating speech recognition and speaker verification2021
- Author(s)
  Saito Yuki、Nakamura Taiki、Ijima Yusuke、Nishida Kyosuke、Takamichi Shinnosuke
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 42 Pages: 1～11
- DOI
  10.1250/ast.42.1
- Peer Reviewed / Open Access
[Journal Article] Joint Adversarial Training of Speech Recognition and Synthesis Models for Many-to-One Voice Conversion Using Phonetic Posteriorgrams2020
- Author(s)
  SAITO Yuki、AKUZAWA Kei、TACHIBANA Kentaro
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E103.D Pages: 1978～1987
- DOI
  10.1587/transinf.2019EDP7297
- Peer Reviewed
[Presentation] 主観的話者間類似度を考慮したDNN話者埋め込みのためのActive Learning2021
- Author(s)
  齋藤佑樹, 高道慎之介, 猿渡洋
- Organizer
  情報処理学会音声言語情報処理研究会
[Presentation] 主観的話者間類似度のグラフ埋め込みに基づくDNN話者埋め込み2020
- Author(s)
  齋藤佑樹, 高道慎之介, 猿渡洋
- Organizer
  日本音響学会 2020年秋季研究発表会

2020 Fiscal Year Annual Research Report

聞き手モデルに基づく能動的音声合成に関する研究

Principal Investigator

齋藤 佑樹 東京大学, 情報理工学系研究科, 特別研究員(DC1)

Research Products

[Journal Article] Perceptual-Similarity-Aware Deep Speaker Representation Learning for Multi-Speaker Generative Modeling2021

Author(s)

Journal Title

DOI

[Journal Article] Non-parallel and many-to-many voice conversion using variational autoencoders integrating speech recognition and speaker verification2021

Author(s)

Journal Title

DOI

[Journal Article] Joint Adversarial Training of Speech Recognition and Synthesis Models for Many-to-One Voice Conversion Using Phonetic Posteriorgrams2020

Author(s)

Journal Title

DOI

[Presentation] 主観的話者間類似度を考慮したDNN話者埋め込みのためのActive Learning2021

Author(s)

Organizer

[Presentation] 主観的話者間類似度のグラフ埋め込みに基づくDNN話者埋め込み2020

Author(s)

Organizer

齋藤佑樹東京大学, 情報理工学系研究科, 特別研究員(DC1)