音声認識のデータ拡張のための音声合成との密統合

Research Project

Project/Area Number	23K16944
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Nagoya Institute of Technology
Principal Investigator	上乃聖名古屋工業大学, 工学(系)研究科(研究院), 助教 (90964007)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000) Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2024: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000) Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywords	音声認識 / 音声合成 / データ拡張 / 統合モデル / ドメイン適応 / 深層学習
Outline of Research at the Start	あらゆるドメインに頑健な音声認識システムを構築するための，音声認識に密結合した音声合成に基づくデータ拡張および学習アルゴリズムの確立を目指す．テキストのみから音声合成を用いて音声認識の訓練データを作成する手法は，音声認識の学習に必要なペアデータが少なくとも良い結果を示しているが，認識・合成を独立に設計を行うため，音声認識性能の改善が限定的であるという問題がある．本研究では音声認識・音声合成の特性を考慮するために (1)認識内で自然音声と合成音声の差異の充足，(2)合成内で話者間・話者内多様性を考慮したモデル，(3)両モデルの相補的な学習のための敵対性ネットワークの設計の3つの研究に取り組む．
Outline of Annual Research Achievements	本研究の目的はあらゆるドメインに頑健なEnd-to-End音声認識システムを構築するための，音声認識に密結合した音声合成に基づくデータ拡張および学習アルゴリズムの確立をであり，本年度は合成音声の多様性に着目し，従来の手法と比較して音声認識のデータ拡張の性能を改善した．合成音声と実際の人の音声の差異を分析するために音声合成システムが生成する音響特徴量に着目した．音声合成が生成する音響特徴量は人間が聴くことのできる音声波形からメルスペクトログラムに変換を行ったものを用いる．メルスペクトログラムはフーリエ変換を基本として，時間解像度や周波数解像度を設定して変換を行う．そこで，本提案手法ではメルスペクトログラムの設定を変更し，複数の設定のメルスペクトログラムを音声合成システムが生成できるようにすることで，疑似的に音響的な多様性を持たせた．また，合成音声におけるテキストにおける多様性の分析を行うために，近年広く研究されており，高い言語生成能力を持つ大規模言語モデル (LLM) を用いてテキスト生成を行った．枠組みとしてテキスト生成を行い，そのテキストを音声合成モデルを使用し生成を行う．LLMのテキスト生成の際にはドメインの異なるソーステキストを用意し，そのソーステキストを変換することで対象のドメインのテキストを生成する．LLMにはプロンプトと呼ばれる自然言語処理による指示を入力に加えることで生成内容を変更することができるため，このプロンプトによる制御に，ドメイン情報を加えることで生成を行った．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 申請時の計画としては，一年目に音声認識側で合成音声と実際の人の音声の差異を埋めることを予定していたが，その差異を埋めるための要素を分析する必要ができたため，二年目の予定にあった，合成音声内の多様性に関する分析，テキスト内の多様性の分析を行った．これらの研究成果により，査読ありのジャーナル論文誌に投稿，採録が決定している．合成音声における複数の設定のメルスペクトログラムを用いたデータ拡張は，話者間・話者内での話者多様性を考慮した音声合成の設計の一つとして考えられる．実験結果により，話者内多様性について，音声の長さや音声に含まれるF0などを変更することで音声認識の性能改善に寄与することが分かった．また，分析により，自然に存在しえない拡張であっても性能改善につながることを示し，合成音声における多様性の少なさと，音声認識における性能改善のために合成音声にとって必要な要素の洗い出しが進んだと言える．話者間・話者内多様性について，LLMのテキスト生成によりテキストの多様性を拡張することで，従来の単語置換手法と比較して，性能改善につながることを示した．出やすい単語などを音声認識が学習し，改善したことに加え，ある話者が話す音声の多様性もテキストの多様性により広がったと言え，これらが性能改善したと考えられる．これらの結果により，End-to-End音声認識とEnd-to-End音声合成の密統合に向けて，合成音声の話者間多様性，話者内多様性，また合成音声全体の多様性の少なさ，その緩和方法の研究が進んだと言え，進捗状況としてはおおむね順調に進展していると言える．
Strategy for Future Research Activity	今後の研究の方策として，計画の時点で１年目に予定していた，合成音声を入力としたときに実際の人の音声との差異を埋める音声認識側の設計を行っていく．差異を緩和する手法として音声合成モデル側のモデル自身の変更や，合成音声の作成時に変更を加える手法を用いていた．それに対し今年度は，自然音声と合成音声の差異を充足するような機構の導入を行う．具体的にはGradient reversal layer (GRL) や敵対性ネットワーク (GAN) などの導入を音声認識内に用い，合成音声と実際の人の音声それぞれをモデルに入力した際に得られる中間表現を．合成音声が入力されても実際の音声と近い表現を得られるように学習を行う．また，音声合成自身の多様性の少なさを解決する手法として，音声合成側の改善も同様に行っていく予定である．具体的には画像分野などで高性能を達成し．音声合成においても適用されているDenosiging diffusion probalistic model (DDPM) を使用することを予定している．DDPMを用いることで，合成音声を作成されるモデルによる性能の違いを分析し，音声認識のデータ拡張にとって性能改善につながる要素のさらなる解明を狙う．これらの研究を行いつつ，両モデルの密統合に向けて両モデルの中間表現として適切なものの分析を行っていく．

Report

(1 results)

2023 Research-status Report

Research Products
(3 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

[Journal Article] Multi-setting acoustic feature training for data augmentation of speech recognition2024
- Author(s)
  Ueno Sei、Lee Akinobu
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 45 Issue: 4 Pages: 195-203
- DOI
  10.1250/ast.e23.70
- ISSN
  0369-4232, 1346-3969, 1347-5177
- Year and Date
  2024-07-01
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Presentation] LLM によるテキスト生成を用いた音声合成による音声認識のドメイン適応2024
- Author(s)
  上乃聖, 李晃伸
- Organizer
  日本音響学会第151回(2024年春季)研究発表会
- Related Report
  2023 Research-status Report
[Presentation] 時間軸-周波数軸上の幅を持たせる音声合成を用いた音声認識のデータ拡張2023
- Author(s)
  上乃聖, 李晃伸
- Organizer
  日本音響学会第150回(2023年秋季)研究発表会
- Related Report
  2023 Research-status Report

音声認識のデータ拡張のための音声合成との密統合

Principal Investigator

上乃 聖 名古屋工業大学, 工学(系)研究科(研究院), 助教 (90964007)

¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Multi-setting acoustic feature training for data augmentation of speech recognition2024

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Presentation] LLM によるテキスト生成を用いた音声合成による音声認識のドメイン適応2024

Author(s)

Organizer

Related Report

[Presentation] 時間軸-周波数軸上の幅を持たせる音声合成を用いた音声認識のデータ拡張2023

Author(s)

Organizer

Related Report

上乃聖名古屋工業大学, 工学(系)研究科(研究院), 助教 (90964007)