元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究

研究課題

研究課題/領域番号	22KJ0838
補助金の研究課題番号	22J12040 (2022)
研究種目	特別研究員奨励費
配分区分	基金 (2023) 補助金 (2022)
応募区分	国内
審査区分	小区分61010:知覚情報処理関連
研究機関	東京大学
研究代表者	佐伯高明東京大学, 情報理工学系研究科, 特別研究員(DC2)
研究期間 (年度)	2023-03-08 – 2024-03-31
研究課題ステータス	中途終了 (2023年度)
配分額 *注記	1,700千円 (直接経費: 1,700千円) 2023年度: 800千円 (直接経費: 800千円) 2022年度: 900千円 (直接経費: 900千円)
キーワード	音声翻訳 / 音声合成 / 多言語音声処理 / 音声自動評価 / 多様な音声データ / 自己教師あり表現学習 / 音声生成システムの自動評価 / 自己教師あり学習
研究開始時の研究の概要	同時音声翻訳は，異言語間でのリアルタイムな音声コミュニケーションを実現する技術である．同時音声翻訳による円滑な音声コミュニケーションのためには，単に言語的な情報を翻訳して出力するだけでなく，話し方など，元音声に含まれる音声情報も反映することが求められる．本研究では，抑揚・感情などの発話スタイルを反映した同時音声翻訳の実現を目的とする．この研究課題の実現のため，まず，高速・逐次的・高品質な多言語音声合成手法を考案する．さらに，異言語間での発話スタイル変換のために，言語に非依存な発話スタイル表現を獲得するための深層学習手法を実現する．
研究実績の概要	最終年度の成果として，まず，低リソース環境での多言語音声合成手法を提案した．書記素や音素テキストのみを用いた多言語事前学習により，ゼロショットでの音声合成の知識転移を実現し，その有効性を確認した．この成果について，2023年8月に人工知能分野のトップ会議であるIJCAI (採択率約15%)にて口頭発表を行った．さらに，テキストデータを利用した音声合成のための自己教師あり言語適応手法を提案し，音声/テキストのペアデータが乏しい状況下でより高品質な音声合成が可能であることを示した．この成果は，音声・音響分野のトップジャーナルであるIEEE/ACM TASLPに採録された．これらの多言語音声合成技術は，本研究課題の目的である異言語間での自然な音声コミュニケーションを多様な言語に対して実現する上で必要不可欠な技術である．また，最終年度には，音声合成や音声翻訳などの音声生成タスクの自動評価に向けて，テキスト生成の自動評価尺度に基づく音声生成の自動評価手法を提案した．これは，自己教師あり音声表現に対して自然言語処理の評価尺度を適用するアプローチであり，現在国際会議Interspeech 2024に投稿中である．これは，音声生成の高精度かつ効率的な自動評価を通して，音声翻訳の品質および表現力向上に寄与する研究成果である．前年度までに実施した逐次音声合成・音声復元の研究は，それぞれ高品質かつ低遅延な音声翻訳・音声処理のためのデータ整備の上で重要な技術であった．最終年度に実施した多言語音声合成・音声自動評価の研究は，それぞれ音声翻訳システムの言語多様化・音声翻訳システムの評価に強く貢献するものである．従って，研究期間全体を通じて，本研究課題の目的である音声翻訳の性能改善と表現力向上に貢献し，それに向けた基盤技術を構築したと言える．

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(10件)

すべて 2024 2023 2022 その他

すべて国際共同研究 (2件) 雑誌論文 (2件) (うち国際共著 1件、査読あり 2件、オープンアクセス 2件) 学会発表 (5件) (うち国際学会 4件) 備考 (1件)

[国際共同研究] カーネギーメロン大学/Language Technologies Institute(米国)
- 関連する報告書
  2023 実績報告書
[国際共同研究] カーネギーメロン大学/Language Technologies Institute(米国)
- 関連する報告書
  2022 実績報告書
[雑誌論文] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024
- 著者名/発表者名
  Saeki Takaaki、Maiti Soumi、Li Xinjian、Watanabe Shinji、Takamichi Shinnosuke、Saruwatari Hiroshi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 32 ページ: 1829-1844
- DOI
  10.1109/taslp.2024.3369537
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023
- 著者名/発表者名
  Saeki Takaaki、Takamichi Shinnosuke、Nakamura Tomohiko、Tanji Naoko、Saruwatari Hiroshi
- 雑誌名
  
  IEEE Access
  
  巻: 11 ページ: 144831-144843
- DOI
  10.1109/access.2023.3345027
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[学会発表] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024
- 著者名/発表者名
  佐伯高明, マイティソウミ, 高道慎之介, 渡部晋治, 猿渡洋
- 学会等名
  SP研究会
- 関連する報告書
  2023 実績報告書
[学会発表] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023
- 著者名/発表者名
  Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari
- 学会等名
  International Joint Conference on Artificial Intelligence (IJCAI), 2023.
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023
- 著者名/発表者名
  Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari
- 学会等名
  International Joint Conference on Artificial Intelligence (IJCAI)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling2023
- 著者名/発表者名
  Takaaki Saeki, Shinnosuke Takamichi, Tomohiko Nakamura, Naoko Tanji, and Hiroshi Saruwatari
- 学会等名
  Annual Conference of the International Speech Communication Association (Interspeech)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 20222022
- 著者名/発表者名
  Takaaki Saeki, Detai Xin, Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, and Hiroshi Saruwatari
- 学会等名
  Annual Conference of the International Speech Communication Association (Interspeech)
- 関連する報告書
  2022 実績報告書
- 国際学会
[備考] 研究代表者の個人webページ
- URL
  https://takaaki-saeki.github.io/
- 関連する報告書
  2022 実績報告書

元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究

研究代表者

佐伯 高明 東京大学, 情報理工学系研究科, 特別研究員(DC2)

1,700千円 (直接経費: 1,700千円)

報告書

研究成果

[国際共同研究] カーネギーメロン大学/Language Technologies Institute(米国)

関連する報告書

[国際共同研究] カーネギーメロン大学/Language Technologies Institute(米国)

関連する報告書

[雑誌論文] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 20222022

著者名/発表者名

学会等名

関連する報告書

[備考] 研究代表者の個人webページ

URL

関連する報告書

佐伯高明東京大学, 情報理工学系研究科, 特別研究員(DC2)