2023 年度実績報告書

非並行型学習法にもとづいた多言語間多話者属性変換システム

研究課題

研究課題/領域番号	20H04207
研究機関	北陸先端科学技術大学院大学
研究代表者	赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
研究分担者	鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
研究期間 (年度)	2020-04-01 – 2024-03-31
キーワード	パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習
研究実績の概要	本研究の最終目標は，ある言語で話者が話した音声からパラ言語および非言語情報を抽出し，他言語による合成音声にこれらの情報を付加することができる音声 - 音声翻訳（Speech-to-Speech Translation: S2ST）のための多言語間音声変換（Voice Conversion: VC）システムを開発することである。S2STは，ある言語の音声に対して音声認識（Speech-to-Text）, 他言語への機械翻訳（Text-to-Text），他言語による音声合成（Text-to-Speech）を通して，別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは，言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。本研究では，4年間の研究期間中に，非言語情報の一つである話者属性の自由な変換操作を目指して，(1) 多言語間でのVCのための非並行型学習法の提案，(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は，(a) VCのSource言語とTarget言語が異なる場合の話者情報表現，(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換，(c) 未学習話者の使用を想定した場合の話者特徴の記述法，(d) 変換後の合成音声の品質・了解度の保証，である。これらの課題すべてを深層学習の枠組みで検討したうえで，適切な目的関数を設定することにより全体を最適化する。令和５年度は，主に上に記述した具体的課題(c)と(d) について研究を行ってきており，話者特徴については声道形状と声帯音源波形を推定する手法について投稿論文の査読結果を見ながら修正を行った。また，音声了解度については雑音環境での了解度向上に提案手法を適用し，了解度の向上を図った。
現在までの達成度 (段落)	令和5年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和5年度が最終年度であるため、記入しない。

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件)

[雑誌論文] Increasing Speech Intelligibility by Mimicking Professional Announcers’ Voices and Its Physical Correlates2023
- 著者名/発表者名
  Dung Kim Tran, Masato Akagi, and Masashi Unoki
- 雑誌名
  
  Proc APSIPA2023
  
  巻: - ページ: 1162, 1167
- 査読あり