元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究

Research Project

Project/Area Number	22KJ0838
Project/Area Number (Other)	22J12040 (2022)
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Multi-year Fund (2023) Single-year Grants (2022)
Section	国内
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	The University of Tokyo
Principal Investigator	佐伯高明東京大学, 情報理工学系研究科, 特別研究員(DC2)
Project Period (FY)	2023-03-08 – 2024-03-31
Project Status	Discontinued (Fiscal Year 2023)
Budget Amount *help	¥1,700,000 (Direct Cost: ¥1,700,000) Fiscal Year 2023: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2022: ¥900,000 (Direct Cost: ¥900,000)
Keywords	音声翻訳 / 音声合成 / 多言語音声処理 / 音声自動評価 / 多様な音声データ / 自己教師あり表現学習 / 音声生成システムの自動評価 / 自己教師あり学習
Outline of Research at the Start	同時音声翻訳は，異言語間でのリアルタイムな音声コミュニケーションを実現する技術である．同時音声翻訳による円滑な音声コミュニケーションのためには，単に言語的な情報を翻訳して出力するだけでなく，話し方など，元音声に含まれる音声情報も反映することが求められる．本研究では，抑揚・感情などの発話スタイルを反映した同時音声翻訳の実現を目的とする．この研究課題の実現のため，まず，高速・逐次的・高品質な多言語音声合成手法を考案する．さらに，異言語間での発話スタイル変換のために，言語に非依存な発話スタイル表現を獲得するための深層学習手法を実現する．
Outline of Annual Research Achievements	最終年度の成果として，まず，低リソース環境での多言語音声合成手法を提案した．書記素や音素テキストのみを用いた多言語事前学習により，ゼロショットでの音声合成の知識転移を実現し，その有効性を確認した．この成果について，2023年8月に人工知能分野のトップ会議であるIJCAI (採択率約15%)にて口頭発表を行った．さらに，テキストデータを利用した音声合成のための自己教師あり言語適応手法を提案し，音声/テキストのペアデータが乏しい状況下でより高品質な音声合成が可能であることを示した．この成果は，音声・音響分野のトップジャーナルであるIEEE/ACM TASLPに採録された．これらの多言語音声合成技術は，本研究課題の目的である異言語間での自然な音声コミュニケーションを多様な言語に対して実現する上で必要不可欠な技術である．また，最終年度には，音声合成や音声翻訳などの音声生成タスクの自動評価に向けて，テキスト生成の自動評価尺度に基づく音声生成の自動評価手法を提案した．これは，自己教師あり音声表現に対して自然言語処理の評価尺度を適用するアプローチであり，現在国際会議Interspeech 2024に投稿中である．これは，音声生成の高精度かつ効率的な自動評価を通して，音声翻訳の品質および表現力向上に寄与する研究成果である．前年度までに実施した逐次音声合成・音声復元の研究は，それぞれ高品質かつ低遅延な音声翻訳・音声処理のためのデータ整備の上で重要な技術であった．最終年度に実施した多言語音声合成・音声自動評価の研究は，それぞれ音声翻訳システムの言語多様化・音声翻訳システムの評価に強く貢献するものである．従って，研究期間全体を通じて，本研究課題の目的である音声翻訳の性能改善と表現力向上に貢献し，それに向けた基盤技術を構築したと言える．

Report

(2 results)

2023 Annual Research Report
2022 Annual Research Report

Research Products
(10 results)

All 2024 2023 2022 Other

All Int'l Joint Research (2 results) Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 2 results) Presentation (5 results) (of which Int'l Joint Research: 4 results) Remarks (1 results)

[Int'l Joint Research] カーネギーメロン大学/Language Technologies Institute(米国)
- Related Report
  2023 Annual Research Report
[Int'l Joint Research] カーネギーメロン大学/Language Technologies Institute(米国)
- Related Report
  2022 Annual Research Report
[Journal Article] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024
- Author(s)
  Saeki Takaaki、Maiti Soumi、Li Xinjian、Watanabe Shinji、Takamichi Shinnosuke、Saruwatari Hiroshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 32 Pages: 1829-1844
- DOI
  10.1109/taslp.2024.3369537
- Related Report
  2023 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023
- Author(s)
  Saeki Takaaki、Takamichi Shinnosuke、Nakamura Tomohiko、Tanji Naoko、Saruwatari Hiroshi
- Journal Title
  
  IEEE Access
  
  Volume: 11 Pages: 144831-144843
- DOI
  10.1109/access.2023.3345027
- Related Report
  2023 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024
- Author(s)
  佐伯高明, マイティソウミ, 高道慎之介, 渡部晋治, 猿渡洋
- Organizer
  SP研究会
- Related Report
  2023 Annual Research Report
[Presentation] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023
- Author(s)
  Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari
- Organizer
  International Joint Conference on Artificial Intelligence (IJCAI), 2023.
- Related Report
  2023 Annual Research Report
- Int'l Joint Research
[Presentation] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023
- Author(s)
  Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari
- Organizer
  International Joint Conference on Artificial Intelligence (IJCAI)
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling2023
- Author(s)
  Takaaki Saeki, Shinnosuke Takamichi, Tomohiko Nakamura, Naoko Tanji, and Hiroshi Saruwatari
- Organizer
  Annual Conference of the International Speech Communication Association (Interspeech)
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 20222022
- Author(s)
  Takaaki Saeki, Detai Xin, Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, and Hiroshi Saruwatari
- Organizer
  Annual Conference of the International Speech Communication Association (Interspeech)
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Remarks] 研究代表者の個人webページ
- URL
  https://takaaki-saeki.github.io/
- Related Report
  2022 Annual Research Report

元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究

Principal Investigator

佐伯 高明 東京大学, 情報理工学系研究科, 特別研究員(DC2)

¥1,700,000 (Direct Cost: ¥1,700,000)

Report

Research Products

[Int'l Joint Research] カーネギーメロン大学/Language Technologies Institute(米国)

Related Report

[Int'l Joint Research] カーネギーメロン大学/Language Technologies Institute(米国)

Related Report

[Journal Article] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024

Author(s)

Organizer

Related Report

[Presentation] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023

Author(s)

Organizer

Related Report

[Presentation] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023

Author(s)

Organizer

Related Report

[Presentation] SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling2023

Author(s)

Organizer

Related Report

[Presentation] UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 20222022

Author(s)

Organizer

Related Report

[Remarks] 研究代表者の個人webページ

URL

Related Report

佐伯高明東京大学, 情報理工学系研究科, 特別研究員(DC2)