深層学習に基づいた新世代音声・オーディオ信号生成に関する研究

研究課題

研究課題/領域番号	23K24870
補助金の研究課題番号	22H03614 (2022-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2022-2023)
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	名古屋工業大学
研究代表者	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究分担者	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907) 南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円) 2024年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円) 2023年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円) 2022年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
キーワード	深層学習 / 音声 / 生成モデル
研究開始時の研究の概要	従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、近年急速に技術革新が進んでいる深層学習に基づいた、音声波形の直接モデル化手法を俯瞰・整理した上で、更に従来手法の長所をも併せもった、次世代の標準形となりうる音声波形生成手法の確立を目指すものである。
研究実績の概要	従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、深層学習に基づいて信号モデルを構成することにより、新しい形の音声信号生成技術を確立し、音声合成、音声符号化、声質変換、更には楽器音等のオーディオ音声信号生成への応用により、その有効性を検証することを目的とする。特に、多視点的・俯瞰的な観点から、音声波形生成に適したモデル構造を探求するとともに、「従来型モデル構造の部分導入」および「学習データ拡張による制御構造の内在化」のふたつのアプローチにより、従来型の音声波形生成手法の利点である「軽量性」、「制御性」を兼ね備えたモデル構造を明らかにすることを目指す。本年度は、昨年度に引き続き、微分可能な形の従来型の信号処理モジュールをニューラルネットワークモデルと組み合わせながら、End2endに学習可能な手法について検討を進めるとともに、理論および公開したソフトウェアについて国際会議で複数の発表を行った。また、基本周波数の制御性に着目した音声波形生成法について、(1) 相互情報量に基づいて基本周波数成分を分離する手法、(2) 学習時に基本周波数に摂動を加えGANにより評価する手法、(3) 確率拡散モデルにおいて周期信号を補助特徴とする手法の3つを提案した。ニューラルネットを周期信号で励振する形の音声波形生成手法については、励振信号の周期波形生成法について検討を行い、多くの知見を得ることができた。更に、VAE形式で音声波形を生成する新しい形の手法を提案し、有効性を検証した。また、並行して「学習データ拡張による制御構造の内在化」に関しても昨年度に引き続き、いくつかの方式について検討を進め、他手法との比較を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由計画通りに研究を進行させるだけでなく、特に「従来型モデル構造の部分導入」については、目論見通り「軽量性」を実現するだけでなく、高度な「制御性」を維持しながら、高品質な合成音声を生成可能な方式を提案することができた。成果については、理論だけでなく公開したオープンソース・ソフトウェアについても関連分野トップカンファレンスおよびワークショップにて発表を行った。また、それぞれ独自の特徴をもつ、新しい形の音声波形生成手法を複数提案し、トップカンファレンスを含む、国内外の学会で発表を行うことができた。このため、当初の計画以上に進展していると言える。
今後の研究の推進方策	昨年度までに、多視点的・俯瞰的な観点（具体的には、「音声品質」、「計算量/モデルサイズ」、「並列計算時間」等の9つの観点）から、音声生成に適した深層学習モデル構造について検討を進めた。特に「従来型モデル構造の部分導入」について、従来型のモデルの利点である「軽量性」、「制御性」を維持しながら、高品質な合成音声が得られる手法を複数提案した。本年度は、昨年度までに「従来型モデル構造の部分導入」について期待以上の多くの成果が得られたことから、本アプローチを軸に「学習データ拡張による制御構造の内在化」との融合を図る。また、「音声合成・歌声合成」、「音声符号化」、「声質変換」の主要応用分野だけでなく、一般の音響信号についても検討を進める。昨今、ネット上から収集されたデータを学習に利用した画像、音声、テキスト等の生成AIについて、データ提供者の権利の問題、あるいはフェイク動画等のなりすましの問題などとして議論されることが多い。本研究では、必要に応じて音声データの利用に際しては、これまで通り、本研究の趣旨に合致した内容とすると共に、個人情報の取り扱い、データ提供者の各種権利等について整合性のある形とするよう十分注意する。

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(23件)

すべて 2024 2023 2022 その他

すべて学会発表 (20件) (うち国際学会 6件、招待講演 1件) 備考 (3件)

[学会発表] PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model2024
- 著者名/発表者名
  Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2024
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] ソース・フィルタ型ニューラルボコーダにおける周期励振信号に関する考察2024
- 著者名/発表者名
  青原光, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 出力遅延と時間伸縮変換を考慮したリアルタイム声質変換の検討2023
- 著者名/発表者名
  鈴木耀, 藤本崇人, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 基本周波数の制御性を考慮したピッチ抽出器を用いたニューラルボコーダ学習法の検討2023
- 著者名/発表者名
  福田至音, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 基本周波数の制御性を考慮した特徴分離に基づくニューラルボコーダ構成法2023
- 著者名/発表者名
  佐藤鈴夏, 藤本崇人, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] V2Coder: 階層型 VAE に基づくニューラルボコーダ2023
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] PeriodGrad: 基本周波数を制御可能な拡散確率モデルに基づくニューラルボコーダ2023
- 著者名/発表者名
  法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] SPTK4: An open-source software toolkit for speech signal processing2023
- 著者名/発表者名
  Takenori Yoshimura, Takato Fujimoto, Keiichiro Oura, and Keiichi Tokuda
- 学会等名
  12th ISCA Speech Synthesis Workshop
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Singing voice synthesis based on a musical note position-aware attention mechanism2023
- 著者名/発表者名
  Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2023
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023
- 著者名/発表者名
  Takenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2023
- 関連する報告書
  2023 実績報告書 2022 実績報告書
- 国際学会
[学会発表] Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism2023
- 著者名/発表者名
  Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2023
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 自己教師あり学習による特徴抽出器とcoarse-fine変換を用いた少量学習データによる歌声変換2023
- 著者名/発表者名
  田中琉聖, 山田淳司, 高木信二 , 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2023年春季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成2023
- 著者名/発表者名
  西原美玖, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
- 関連する報告書
  2022 実績報告書
[学会発表] 音声合成技術の発展と未来　－個人的視点から雑談風に2022
- 著者名/発表者名
  徳田恵一
- 学会等名
  JST CREST「共創型音メディア機能拡張」中間シンポジウム 2022
- 関連する報告書
  2022 実績報告書
- 招待講演
[学会発表] Sequence-to-sequence歌声合成のための発声タイミングのモデル化に関する検討2022
- 著者名/発表者名
  西原美玖, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] Sequence-to-sequence歌声合成のための音符位置に基づくアテンション機構の検討2022
- 著者名/発表者名
  法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022
- 著者名/発表者名
  吉村建慶, 高木信二, 中村和寛, 大浦圭一郎, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 隠れセミマルコフモデルに基づく構造化アテンションを用いた音声合成におけるパラメータ共有構造の検討2022
- 著者名/発表者名
  石田龍成, 藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022
- 著者名/発表者名
  Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[備考] Speech Signal Processing Toolkit (SPTK4)
- URL
  https://github.com/sp-nitech/SPTK
- 関連する報告書
  2023 実績報告書
[備考] A differential version of SPTK (diffSPTK)
- URL
  https://github.com/sp-nitech/diffsptk
- 関連する報告書
  2023 実績報告書
[備考] A differential version of SPTK
- URL
  https://github.com/sp-nitech/diffsptk
- 関連する報告書
  2022 実績報告書

深層学習に基づいた新世代音声・オーディオ信号生成に関する研究

研究代表者

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] ソース・フィルタ型ニューラルボコーダにおける周期励振信号に関する考察2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 出力遅延と時間伸縮変換を考慮したリアルタイム声質変換の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 基本周波数の制御性を考慮したピッチ抽出器を用いたニューラルボコーダ学習法の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 基本周波数の制御性を考慮した特徴分離に基づくニューラルボコーダ構成法2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] V2Coder: 階層型 VAE に基づくニューラルボコーダ2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] PeriodGrad: 基本周波数を制御可能な拡散確率モデルに基づくニューラルボコーダ2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] SPTK4: An open-source software toolkit for speech signal processing2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Singing voice synthesis based on a musical note position-aware attention mechanism2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自己教師あり学習による特徴抽出器とcoarse-fine変換を用いた少量学習データによる歌声変換2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声合成技術の発展と未来 －個人的視点から雑談風に2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Sequence-to-sequence歌声合成のための発声タイミングのモデル化に関する検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Sequence-to-sequence歌声合成のための音符位置に基づくアテンション機構の検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022

著者名/発表者名

学会等名

関連する報告書

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

[学会発表] 音声合成技術の発展と未来　－個人的視点から雑談風に2022