2022 Fiscal Year Annual Research Report
Multi-lingual multi-speaker voice conversion system by non-parallel learning method
Project/Area Number |
20H04207
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
赤木 正人 北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習 |
Outline of Annual Research Achievements |
本研究の最終目標は,ある言語で話者が話した音声からパラ言語および非言語情報を抽出し,他言語による合成音声にこれらの情報を自由に付加することができる音声 - 音声翻訳(Speech-to-Speech Translation: S2ST)のための多言語間音声変換(Voice Conversion: VC)システムを開発することである。 S2STは,ある言語の音声に対して音声認識(Speech-to-Text), 他言語への機械翻訳(Text-to-Text),他言語による音声合成(Text-to-Speech)を通して,別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは,言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。 本研究では,4年間の研究期間中に,非言語情報の一つである話者属性の自由な変換操作を目指して,(1) 多言語間でのVCのための非並行型学習法の提案,(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a) VCのSource言語とTarget言語が異なる場合の話者情報表現,(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c) 未学習話者の使用を想定した場合の話者特徴の記述法,(d) 変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化する。 令和4年度は,主に上に記述した具体的課題(a), (b)および(c)の一部について研究を行ってきており,変換法についておよび多言語での音声特徴の候補についての目途が立ってきた。詳しい成果は,「現在までの進捗状況」の項に記す。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では,前述した目的を達成するために,令和4年度においては,(1) 言語内容が多岐にわたる音声を入力とする話者情報(性別および発話スタイル)変換の検討,(2) 音声波形から話者性を多く含む特徴として知られている声道形状と声帯音源波形を推定する手法の提案,および,(3) 推定した声道形状と声帯音源波形を話者変換のための特徴量として使用すること,を検討した。 (1) 話者情報変換の検討については,性別が異なる複数のプロのアナウンサーと素人の朗読音声を対象として,言語内容によらない性別および発話スタイルの変換制御に成功した。これらを因子とする話者空間を構築し,その空間で発話スタイルの変換を行ったところ,この空間内の任意の位置での発話スタイルを持つ音声の合成が可能となった。プロのアナウンサーの発話スタイルを真似た合成音声は,アナウンサー音声に特有のClear Speech特性を持つ音声となった。この成果は,音声研究に関する国際会議InterSpeech2022で発表した。この結果は,音響に関する国際会議ICA2022,および,日本音響学会での招待講演で報告した。 (2) 音声波形から声道形状と声帯音源波形を推定する手法については,前年度に提案した話者ごとに特徴的な形状を持つ分岐管を考慮した声道伝達特性と声帯音源波形を音声波形から同時に推定できる手法(ARMAX-LFモデル)において,声帯音源パラメータ推定に深層ニューラルネットワークを用いた方法を付加し,推定結果の高精度化および安定化を図った。 (3) 推定した特徴量を話者変換のための特徴として使用することについては,その前段階として,Speaker Anonymizationを目指した音声変形のために,声道形状に関係するパラメータを変形制御する方法の有効性を検討した。この結果は,国際会議InterSpeech2022で発表した。
|
Strategy for Future Research Activity |
前年度までは,主に上に記述した具体的課題(a), (b)および(c)の一部について研究を行ってきた。変換法について,および,多言語での音声特徴の候補についての目途が立ったので,最終年度であるR5年度は具体的課題(c)(言語によらない話者情報表現および話者特徴の高精度記述法)を中心に研究を行う。 話者性を多く含む特徴として,声道形状と声帯音源波形が知られている。これらは,性別,年齢,声質等に深くかかわっている。また,言語が異なっても音声生成系である声道形状と声帯音源波形の特徴は保持される。このため,声道形状と声帯音源波形は,言語によらない話者情報表現として適切な特徴と考えられる。そこで,最終年度であるR5年度は,(1) 音声波形から声道形状と声帯音源波形をより高精度で推定する手法を提案すること,および,(2) 推定した特徴量を話者変換のための特徴として使用すること,を検討する。 具体的には,(1) 声道形状と声帯音源波形の高精度推定に対しては,声帯音源波形を音声波形から同時に推定できる手法(ARMAX-LFモデル)の更なる高精度化を実施する。また,(2) 推定した特徴量を用いた話者変換に対しては,声道形状と声帯音源波形を用いて話者個人性の操作(ターゲットとして言語によらない他話者への変換,および,話者性の曖昧化)を行う。 そして,(3) 最終目標である多言語を入力とする属性変換および変換後の合成音声の品質・了解度の保証へとつなげ,これらの研究から得られた成果を取りまとめ学会発表を行う。
|