音声認識のデータ拡張のための音声合成との密統合

研究課題

研究課題/領域番号	23K16944
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	名古屋工業大学
研究代表者	上乃聖名古屋工業大学, 工学(系)研究科(研究院), 助教 (90964007)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2025年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2024年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	音声認識 / 音声合成 / データ拡張 / 統合モデル / ドメイン適応 / 深層学習
研究開始時の研究の概要	あらゆるドメインに頑健な音声認識システムを構築するための，音声認識に密結合した音声合成に基づくデータ拡張および学習アルゴリズムの確立を目指す．テキストのみから音声合成を用いて音声認識の訓練データを作成する手法は，音声認識の学習に必要なペアデータが少なくとも良い結果を示しているが，認識・合成を独立に設計を行うため，音声認識性能の改善が限定的であるという問題がある．本研究では音声認識・音声合成の特性を考慮するために (1)認識内で自然音声と合成音声の差異の充足，(2)合成内で話者間・話者内多様性を考慮したモデル，(3)両モデルの相補的な学習のための敵対性ネットワークの設計の3つの研究に取り組む．
研究実績の概要	本研究の目的はあらゆるドメインに頑健なEnd-to-End音声認識システムを構築するための，音声認識に密結合した音声合成に基づくデータ拡張および学習アルゴリズムの確立をであり，本年度は合成音声の多様性に着目し，従来の手法と比較して音声認識のデータ拡張の性能を改善した．合成音声と実際の人の音声の差異を分析するために音声合成システムが生成する音響特徴量に着目した．音声合成が生成する音響特徴量は人間が聴くことのできる音声波形からメルスペクトログラムに変換を行ったものを用いる．メルスペクトログラムはフーリエ変換を基本として，時間解像度や周波数解像度を設定して変換を行う．そこで，本提案手法ではメルスペクトログラムの設定を変更し，複数の設定のメルスペクトログラムを音声合成システムが生成できるようにすることで，疑似的に音響的な多様性を持たせた．また，合成音声におけるテキストにおける多様性の分析を行うために，近年広く研究されており，高い言語生成能力を持つ大規模言語モデル (LLM) を用いてテキスト生成を行った．枠組みとしてテキスト生成を行い，そのテキストを音声合成モデルを使用し生成を行う．LLMのテキスト生成の際にはドメインの異なるソーステキストを用意し，そのソーステキストを変換することで対象のドメインのテキストを生成する．LLMにはプロンプトと呼ばれる自然言語処理による指示を入力に加えることで生成内容を変更することができるため，このプロンプトによる制御に，ドメイン情報を加えることで生成を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由申請時の計画としては，一年目に音声認識側で合成音声と実際の人の音声の差異を埋めることを予定していたが，その差異を埋めるための要素を分析する必要ができたため，二年目の予定にあった，合成音声内の多様性に関する分析，テキスト内の多様性の分析を行った．これらの研究成果により，査読ありのジャーナル論文誌に投稿，採録が決定している．合成音声における複数の設定のメルスペクトログラムを用いたデータ拡張は，話者間・話者内での話者多様性を考慮した音声合成の設計の一つとして考えられる．実験結果により，話者内多様性について，音声の長さや音声に含まれるF0などを変更することで音声認識の性能改善に寄与することが分かった．また，分析により，自然に存在しえない拡張であっても性能改善につながることを示し，合成音声における多様性の少なさと，音声認識における性能改善のために合成音声にとって必要な要素の洗い出しが進んだと言える．話者間・話者内多様性について，LLMのテキスト生成によりテキストの多様性を拡張することで，従来の単語置換手法と比較して，性能改善につながることを示した．出やすい単語などを音声認識が学習し，改善したことに加え，ある話者が話す音声の多様性もテキストの多様性により広がったと言え，これらが性能改善したと考えられる．これらの結果により，End-to-End音声認識とEnd-to-End音声合成の密統合に向けて，合成音声の話者間多様性，話者内多様性，また合成音声全体の多様性の少なさ，その緩和方法の研究が進んだと言え，進捗状況としてはおおむね順調に進展していると言える．
今後の研究の推進方策	今後の研究の方策として，計画の時点で１年目に予定していた，合成音声を入力としたときに実際の人の音声との差異を埋める音声認識側の設計を行っていく．差異を緩和する手法として音声合成モデル側のモデル自身の変更や，合成音声の作成時に変更を加える手法を用いていた．それに対し今年度は，自然音声と合成音声の差異を充足するような機構の導入を行う．具体的にはGradient reversal layer (GRL) や敵対性ネットワーク (GAN) などの導入を音声認識内に用い，合成音声と実際の人の音声それぞれをモデルに入力した際に得られる中間表現を．合成音声が入力されても実際の音声と近い表現を得られるように学習を行う．また，音声合成自身の多様性の少なさを解決する手法として，音声合成側の改善も同様に行っていく予定である．具体的には画像分野などで高性能を達成し．音声合成においても適用されているDenosiging diffusion probalistic model (DDPM) を使用することを予定している．DDPMを用いることで，合成音声を作成されるモデルによる性能の違いを分析し，音声認識のデータ拡張にとって性能改善につながる要素のさらなる解明を狙う．これらの研究を行いつつ，両モデルの密統合に向けて両モデルの中間表現として適切なものの分析を行っていく．

報告書

(1件)

2023 実施状況報告書

研究成果
(3件)

すべて 2024 2023

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)

[雑誌論文] Multi-setting acoustic feature training for data augmentation of speech recognition2024
- 著者名/発表者名
  Ueno Sei、Lee Akinobu
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 45 号: 4 ページ: 195-203
- DOI
  10.1250/ast.e23.70
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2024-07-01
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] LLM によるテキスト生成を用いた音声合成による音声認識のドメイン適応2024
- 著者名/発表者名
  上乃聖, 李晃伸
- 学会等名
  日本音響学会第151回(2024年春季)研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 時間軸-周波数軸上の幅を持たせる音声合成を用いた音声認識のデータ拡張2023
- 著者名/発表者名
  上乃聖, 李晃伸
- 学会等名
  日本音響学会第150回(2023年秋季)研究発表会
- 関連する報告書
  2023 実施状況報告書

音声認識のデータ拡張のための音声合成との密統合

研究代表者

上乃 聖 名古屋工業大学, 工学(系)研究科(研究院), 助教 (90964007)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Multi-setting acoustic feature training for data augmentation of speech recognition2024

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] LLM によるテキスト生成を用いた音声合成による音声認識のドメイン適応2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 時間軸-周波数軸上の幅を持たせる音声合成を用いた音声認識のデータ拡張2023

著者名/発表者名

学会等名

関連する報告書

上乃聖名古屋工業大学, 工学(系)研究科(研究院), 助教 (90964007)