• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

Modelling Speech Spectra Based on Logarithmic Shallow Neural Networks

Research Project

Project/Area Number 21K11957
Research InstitutionThe University of Electro-Communications

Principal Investigator

中鹿 亘  電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)

Co-Investigator(Kenkyū-buntansha) 矢田部 浩平  東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
Project Period (FY) 2021-04-01 – 2024-03-31
Keywords音声信号処理 / 機械学習 / 確率・統計 / 音声符号化 / ボルツマンマシン
Outline of Annual Research Achievements

ディープニューラルネットワークを始めとする内部状態がブラックボックスである深層学習モデルとは異なり,浅層確率的ニューラルネットワークである制限ボルツマンマシン(RBM)はデータの確率分布を陽に仮定できるため,より適切に音声のデータ構造を表現することができる.本研究では,そのようなRBMの性質を利用して,対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立することを目指している.初年度(令和3年度)は対数振幅スペクトルを考慮したモデル(ガンマRBM),令和4年度では更に位相を考慮したモデル(GVM-RBM; Gamma-von-Mises RBM)を提案し,実装,評価及び論文執筆を行なった.最終年度(令和5年度)ではこれらの知見を活かし,RBMの音源分離への応用やガンマ分布する変分自己符号化器(VAE)の新規提案などを行なった.具体的には,前者では提案するレイリー分布型のRBMおよび指数分布型のRBMを用いて,従来のガウス型RBMおよびNMFよりも精度良く音源分離できることを示した.後者では従来の潜在変数,観測変数ともにガウス分布を仮定していたVAEよりも,ガンマ分布を仮定したVAEの方が,より高い精度で音声の対数振幅スペクトルを表現できることを示した.本研究成果に関して,権威的な国際論文誌であるIEEE Signal Processing Letters (インパクトファクター:3.2)に1件投稿した(現在査読中).

  • Research Products

    (14 results)

All 2024 2023

All Presentation (14 results)

  • [Presentation] 分類型半制限ボルツマンマシンによる全音程関係を考慮した和音認識2024

    • Author(s)
      石川 峻弥,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
  • [Presentation] 事前学習済みモデルによる埋め込み表現を組み込んだ音声編集モデルの検討2024

    • Author(s)
      平本 佳弘,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
  • [Presentation] 拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換2024

    • Author(s)
      畠山 瑠一,奥田 耕平,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
  • [Presentation] 歌唱音声合成におけるF0の自然性向上のためのDiffusion-GANモデルの検討2024

    • Author(s)
      芦田 裕飛,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
  • [Presentation] FaderNetworksを用いたF0変換による歌唱技術の付与2024

    • Author(s)
      後藤 純平,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
  • [Presentation] 2種のラグ窓によるスペクトル平滑化を用いたF0推定2024

    • Author(s)
      越森 道貴,嵯峨山 茂樹,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
  • [Presentation] DDPMVC: 連続時間拡散確率モデルを用いた非パラレル声質変換と評価2024

    • Author(s)
      畠山 瑠一,奥田 耕平,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
  • [Presentation] 複数のラグ窓対を用いた音声基本周波数と周期性尺度の推定2024

    • Author(s)
      越森 道貴,嵯峨山 茂樹,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
  • [Presentation] 潜在変数と観測データにガンマ分布を仮定したVAEによる音声振幅スペクトル表現2024

    • Author(s)
      今市 夏菜子,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
  • [Presentation] Transformerを用いた脳波信号からの音声復元の検討2024

    • Author(s)
      水野 友暁,岸田 拓也,吉村 奈津江,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
  • [Presentation] ベータ分布に基づくFaderNetを用いた音声印象変換の性能評価2023

    • Author(s)
      釘本咲, 中鹿亘
    • Organizer
      日本音響学会2023年秋季研究発表会
  • [Presentation] レイリー型制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2023

    • Author(s)
      古田翔太郎, 中鹿亘
    • Organizer
      日本音響学会2023年秋季研究発表会
  • [Presentation] SiFiSinger: SiFi-GANを内包した歌唱音声合成2023

    • Author(s)
      芦田裕飛, 中鹿亘
    • Organizer
      日本音響学会2023年秋季研究発表会
  • [Presentation] FaderNetを用いた未知話者に対する音声印象変換2023

    • Author(s)
      釘本咲, 中鹿亘
    • Organizer
      音学シンポジウム2023

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi