2023 Fiscal Year Annual Research Report

元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究

Research Project

Project/Area Number	22KJ0838
Allocation Type	Multi-year Fund
Research Institution	The University of Tokyo
Principal Investigator	佐伯高明東京大学, 情報理工学系研究科, 特別研究員(DC2)
Project Period (FY)	2023-03-08 – 2024-03-31
Keywords	音声翻訳 / 音声合成 / 多言語音声処理 / 音声自動評価 / 多様な音声データ / 自己教師あり表現学習
Outline of Annual Research Achievements	最終年度の成果として，まず，低リソース環境での多言語音声合成手法を提案した．書記素や音素テキストのみを用いた多言語事前学習により，ゼロショットでの音声合成の知識転移を実現し，その有効性を確認した．この成果について，2023年8月に人工知能分野のトップ会議であるIJCAI (採択率約15%)にて口頭発表を行った．さらに，テキストデータを利用した音声合成のための自己教師あり言語適応手法を提案し，音声/テキストのペアデータが乏しい状況下でより高品質な音声合成が可能であることを示した．この成果は，音声・音響分野のトップジャーナルであるIEEE/ACM TASLPに採録された．これらの多言語音声合成技術は，本研究課題の目的である異言語間での自然な音声コミュニケーションを多様な言語に対して実現する上で必要不可欠な技術である．また，最終年度には，音声合成や音声翻訳などの音声生成タスクの自動評価に向けて，テキスト生成の自動評価尺度に基づく音声生成の自動評価手法を提案した．これは，自己教師あり音声表現に対して自然言語処理の評価尺度を適用するアプローチであり，現在国際会議Interspeech 2024に投稿中である．これは，音声生成の高精度かつ効率的な自動評価を通して，音声翻訳の品質および表現力向上に寄与する研究成果である．前年度までに実施した逐次音声合成・音声復元の研究は，それぞれ高品質かつ低遅延な音声翻訳・音声処理のためのデータ整備の上で重要な技術であった．最終年度に実施した多言語音声合成・音声自動評価の研究は，それぞれ音声翻訳システムの言語多様化・音声翻訳システムの評価に強く貢献するものである．従って，研究期間全体を通じて，本研究課題の目的である音声翻訳の性能改善と表現力向上に貢献し，それに向けた基盤技術を構築したと言える．

Research Products
(5 results)

All 2024 2023 Other

All Int'l Joint Research (1 results) Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 2 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Int'l Joint Research] カーネギーメロン大学/Language Technologies Institute(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  カーネギーメロン大学/Language Technologies Institute
[Journal Article] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024
- Author(s)
  Saeki Takaaki、Maiti Soumi、Li Xinjian、Watanabe Shinji、Takamichi Shinnosuke、Saruwatari Hiroshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 32 Pages: 1829～1844
- DOI
  10.1109/TASLP.2024.3369537
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023
- Author(s)
  Saeki Takaaki、Takamichi Shinnosuke、Nakamura Tomohiko、Tanji Naoko、Saruwatari Hiroshi
- Journal Title
  
  IEEE Access
  
  Volume: 11 Pages: 144831～144843
- DOI
  10.1109/ACCESS.2023.3345027
- Peer Reviewed / Open Access
[Presentation] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024
- Author(s)
  佐伯高明, マイティソウミ, 高道慎之介, 渡部晋治, 猿渡洋
- Organizer
  SP研究会
[Presentation] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023
- Author(s)
  Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari
- Organizer
  International Joint Conference on Artificial Intelligence (IJCAI), 2023.
- Int'l Joint Research

2023 Fiscal Year Annual Research Report

元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究

Principal Investigator

佐伯 高明 東京大学, 情報理工学系研究科, 特別研究員(DC2)

Research Products

[Int'l Joint Research] カーネギーメロン大学/Language Technologies Institute(米国)

Country Name

Counterpart Institution

[Journal Article] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024

Author(s)

Journal Title

DOI

[Journal Article] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023

Author(s)

Journal Title

DOI

[Presentation] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024

Author(s)

Organizer

[Presentation] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023

Author(s)

Organizer

佐伯高明東京大学, 情報理工学系研究科, 特別研究員(DC2)