2023 Fiscal Year Annual Research Report

Modelling Speech Spectra Based on Logarithmic Shallow Neural Networks

Research Project

Project/Area Number	21K11957
Research Institution	The University of Electro-Communications
Principal Investigator	中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
Co-Investigator(Kenkyū-buntansha)	矢田部浩平東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	音声信号処理 / 機械学習 / 確率・統計 / 音声符号化 / ボルツマンマシン
Outline of Annual Research Achievements	ディープニューラルネットワークを始めとする内部状態がブラックボックスである深層学習モデルとは異なり，浅層確率的ニューラルネットワークである制限ボルツマンマシン(RBM)はデータの確率分布を陽に仮定できるため，より適切に音声のデータ構造を表現することができる．本研究では，そのようなRBMの性質を利用して，対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立することを目指している．初年度(令和3年度)は対数振幅スペクトルを考慮したモデル（ガンマRBM），令和4年度では更に位相を考慮したモデル（GVM-RBM; Gamma-von-Mises RBM）を提案し，実装，評価及び論文執筆を行なった．最終年度(令和5年度)ではこれらの知見を活かし，RBMの音源分離への応用やガンマ分布する変分自己符号化器(VAE)の新規提案などを行なった．具体的には，前者では提案するレイリー分布型のRBMおよび指数分布型のRBMを用いて，従来のガウス型RBMおよびNMFよりも精度良く音源分離できることを示した．後者では従来の潜在変数，観測変数ともにガウス分布を仮定していたVAEよりも，ガンマ分布を仮定したVAEの方が，より高い精度で音声の対数振幅スペクトルを表現できることを示した．本研究成果に関して，権威的な国際論文誌であるIEEE Signal Processing Letters (インパクトファクター：3.2)に1件投稿した（現在査読中）．

Research Products
(14 results)

All 2024 2023

All Presentation (14 results)

[Presentation] 分類型半制限ボルツマンマシンによる全音程関係を考慮した和音認識2024
- Author(s)
  石川峻弥，中鹿亘
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 事前学習済みモデルによる埋め込み表現を組み込んだ音声編集モデルの検討2024
- Author(s)
  平本佳弘，中鹿亘
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換2024
- Author(s)
  畠山瑠一，奥田耕平，中鹿亘
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 歌唱音声合成におけるF0の自然性向上のためのDiffusion-GANモデルの検討2024
- Author(s)
  芦田裕飛，中鹿亘
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] FaderNetworksを用いたF0変換による歌唱技術の付与2024
- Author(s)
  後藤純平，中鹿亘
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 2種のラグ窓によるスペクトル平滑化を用いたF0推定2024
- Author(s)
  越森道貴，嵯峨山茂樹，中鹿亘
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] DDPMVC: 連続時間拡散確率モデルを用いた非パラレル声質変換と評価2024
- Author(s)
  畠山瑠一，奥田耕平，中鹿亘
- Organizer
  電子情報通信学会2024年3月音声研究会
[Presentation] 複数のラグ窓対を用いた音声基本周波数と周期性尺度の推定2024
- Author(s)
  越森道貴，嵯峨山茂樹，中鹿亘
- Organizer
  電子情報通信学会2024年3月音声研究会
[Presentation] 潜在変数と観測データにガンマ分布を仮定したVAEによる音声振幅スペクトル表現2024
- Author(s)
  今市夏菜子，中鹿亘
- Organizer
  電子情報通信学会2024年3月音声研究会
[Presentation] Transformerを用いた脳波信号からの音声復元の検討2024
- Author(s)
  水野友暁，岸田拓也，吉村奈津江，中鹿亘
- Organizer
  電子情報通信学会2024年3月音声研究会
[Presentation] ベータ分布に基づくFaderNetを用いた音声印象変換の性能評価2023
- Author(s)
  釘本咲, 中鹿亘
- Organizer
  日本音響学会2023年秋季研究発表会
[Presentation] レイリー型制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2023
- Author(s)
  古田翔太郎, 中鹿亘
- Organizer
  日本音響学会2023年秋季研究発表会
[Presentation] SiFiSinger: SiFi-GANを内包した歌唱音声合成2023
- Author(s)
  芦田裕飛, 中鹿亘
- Organizer
  日本音響学会2023年秋季研究発表会
[Presentation] FaderNetを用いた未知話者に対する音声印象変換2023
- Author(s)
  釘本咲, 中鹿亘
- Organizer
  音学シンポジウム2023

2023 Fiscal Year Annual Research Report

Modelling Speech Spectra Based on Logarithmic Shallow Neural Networks

Principal Investigator

中鹿 亘 電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)

Research Products

[Presentation] 分類型半制限ボルツマンマシンによる全音程関係を考慮した和音認識2024

Author(s)

Organizer

[Presentation] 事前学習済みモデルによる埋め込み表現を組み込んだ音声編集モデルの検討2024

Author(s)

Organizer

[Presentation] 拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換2024

Author(s)

Organizer

[Presentation] 歌唱音声合成におけるF0の自然性向上のためのDiffusion-GANモデルの検討2024

Author(s)

Organizer

[Presentation] FaderNetworksを用いたF0変換による歌唱技術の付与2024

Author(s)

Organizer

[Presentation] 2種のラグ窓によるスペクトル平滑化を用いたF0推定2024

Author(s)

Organizer

[Presentation] DDPMVC: 連続時間拡散確率モデルを用いた非パラレル声質変換と評価2024

Author(s)

Organizer

[Presentation] 複数のラグ窓対を用いた音声基本周波数と周期性尺度の推定2024

Author(s)

Organizer

[Presentation] 潜在変数と観測データにガンマ分布を仮定したVAEによる音声振幅スペクトル表現2024

Author(s)

Organizer

[Presentation] Transformerを用いた脳波信号からの音声復元の検討2024

Author(s)

Organizer

[Presentation] ベータ分布に基づくFaderNetを用いた音声印象変換の性能評価2023

Author(s)

Organizer

[Presentation] レイリー型制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2023

Author(s)

Organizer

[Presentation] SiFiSinger: SiFi-GANを内包した歌唱音声合成2023

Author(s)

Organizer

[Presentation] FaderNetを用いた未知話者に対する音声印象変換2023

Author(s)

Organizer

中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)