• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Modelling Speech Spectra Based on Logarithmic Shallow Neural Networks

Research Project

Project/Area Number 21K11957
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionThe University of Electro-Communications

Principal Investigator

Nakashika Toru  電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)

Co-Investigator(Kenkyū-buntansha) 矢田部 浩平  東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
Project Period (FY) 2021-04-01 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywords音声符号化 / 音声モデリング / 機械学習 / 複素確率分布 / ボルツマンマシン / ガンマ分布 / フォン・ミーゼス分布 / 音源分離 / 音声信号処理 / 確率・統計 / 音声合成 / ニューラルネットワーク
Outline of Research at the Start

音声は重要なコミュニーケーションツールの一つであり,スマートフォンなど身の回りで様々な音声技術が利用されている。そのバックエンドには機械学習が用いられている。音声の重要な情報としてスペクトルがあり,特に対数振幅スペクトルがよく用いられるが,近年では聴覚上位相の重要性も指摘されている。本研究では,音声に適した新しい機械学習手法として,浅層ニューラルネットである制限ボルツマンマシン(RBM)を用いて対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する。深層学習とは異なり,RBMはコンパクトで解釈性があり,データの確率分布を陽に仮定できるため,より適切に音声を表現することができる。

Outline of Final Research Achievements

Speech is one of the most important communication tools, and various speech technologies are used around us. Especially in recent years, deep learning is often used blindly as its backend because it has been attracting worldwide attention. While deep learning shows very high performance for each task, it has the disadvantage of having a huge number of parameters and high computational cost. Compact machine learning models with a fewer number of parameters are preferable for small devices with limited computational resources. In this study, we proposed a new methodology and framework for a compact shallow-layer model that appropriately represents data, focusing on the specific properties and structures of speech data, and verified the effectiveness of the proposed model through multiple experiments.

Academic Significance and Societal Importance of the Research Achievements

本研究では,音声のデータ構造に着目し,主に音声複素スペクトルを対数的に表現する複素浅層ニューラルネットを提案した。重要な本研究成果の1つとして,このモデルが,僅か800バイト程度の情報量で,最新の深層学習技術に基づく巨大なニューラルネットワークモデルと同程度の性能を示した,ということが挙げられる。このことから闇雲にパラメータ数を増やしてモデルを巨大化させるのではなく,知恵を絞って適切にデータを表現する方が得策であると言える。またこのようなコンパクトな浅層モデルは,演算による消費電力を抑えることにもなり,省エネで地球環境に配慮したグリーンコンピューティングなアプローチとして貢献することができる。

Report

(4 results)
  • 2023 Annual Research Report   Final Research Report ( PDF )
  • 2022 Research-status Report
  • 2021 Research-status Report
  • Research Products

    (38 results)

All 2024 2023 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (35 results) (of which Int'l Joint Research: 4 results) Book (1 results) Patent(Industrial Property Rights) (1 results)

  • [Journal Article] Gamma Boltzmann Machine for Audio Modeling2021

    • Author(s)
      Nakashika Toru、Yatabe Kohei
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 29 Pages: 2591-2605

    • DOI

      10.1109/taslp.2021.3095656

    • Related Report
      2021 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] 分類型半制限ボルツマンマシンによる全音程関係を考慮した和音認識2024

    • Author(s)
      石川 峻弥,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 事前学習済みモデルによる埋め込み表現を組み込んだ音声編集モデルの検討2024

    • Author(s)
      平本 佳弘,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換2024

    • Author(s)
      畠山 瑠一,奥田 耕平,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 歌唱音声合成におけるF0の自然性向上のためのDiffusion-GANモデルの検討2024

    • Author(s)
      芦田 裕飛,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] FaderNetworksを用いたF0変換による歌唱技術の付与2024

    • Author(s)
      後藤 純平,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 2種のラグ窓によるスペクトル平滑化を用いたF0推定2024

    • Author(s)
      越森 道貴,嵯峨山 茂樹,中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] DDPMVC: 連続時間拡散確率モデルを用いた非パラレル声質変換と評価2024

    • Author(s)
      畠山 瑠一,奥田 耕平,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 複数のラグ窓対を用いた音声基本周波数と周期性尺度の推定2024

    • Author(s)
      越森 道貴,嵯峨山 茂樹,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 潜在変数と観測データにガンマ分布を仮定したVAEによる音声振幅スペクトル表現2024

    • Author(s)
      今市 夏菜子,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Transformerを用いた脳波信号からの音声復元の検討2024

    • Author(s)
      水野 友暁,岸田 拓也,吉村 奈津江,中鹿 亘
    • Organizer
      電子情報通信学会2024年3月音声研究会
    • Related Report
      2023 Annual Research Report
  • [Presentation] ベータ分布に基づくFaderNetを用いた音声印象変換の性能評価2023

    • Author(s)
      釘本咲, 中鹿亘
    • Organizer
      日本音響学会2023年秋季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] レイリー型制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2023

    • Author(s)
      古田翔太郎, 中鹿亘
    • Organizer
      日本音響学会2023年秋季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] SiFiSinger: SiFi-GANを内包した歌唱音声合成2023

    • Author(s)
      芦田裕飛, 中鹿亘
    • Organizer
      日本音響学会2023年秋季研究発表会
    • Related Report
      2023 Annual Research Report
  • [Presentation] FaderNetを用いた未知話者に対する音声印象変換2023

    • Author(s)
      釘本咲, 中鹿亘
    • Organizer
      音学シンポジウム2023
    • Related Report
      2023 Annual Research Report
  • [Presentation] Consistency Regularization for GAN-Based Neural Vocoders2022

    • Author(s)
      Kotaro Onishi, Toru Nakashika
    • Organizer
      APSIPA 2022, pp. 1132-1137, November 2022
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] MoCoVC: Non-Parallel Voice Conversion With Momentum Contrastive Representation Learning2022

    • Author(s)
      Kotaro Onishi, Toru Nakashika
    • Organizer
      APSIPA 2022, pp. 1435-1440, November 2022
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] Non-parallel voice conversion based on free-energy minimization of speaker-conditional restricted Boltzmann machine2022

    • Author(s)
      Takuya Kishida, Toru Nakashika
    • Organizer
      APSIPA 2022, November 2022
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] Controllable voice conversion based on quantization of voice factor scores2022

    • Author(s)
      Takumi Isako, Kotaro Onishi, Takuya Kishida, Toru Nakashika
    • Organizer
      APSIPA 2022, pp. 1444-1448, November 2022
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] Dual Diffusion Implicit Bridgesを用いた話者間の匿名性を担保した声質変換2022

    • Author(s)
      奥田耕平 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2023年春季研究発表会,1-3Q-10, March 2023, March 2023.
    • Related Report
      2022 Research-status Report
  • [Presentation] 振幅重み付けエネルギー関数を用いたボルツマンマシンによる位相復元2022

    • Author(s)
      羽賀洋克, 矢田部浩平, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2023年春季研究発表会, 3-3-13, pp. 769-770, March 2023.
    • Related Report
      2022 Research-status Report
  • [Presentation] Speechsplit を用いたイントネーション・リズム・発音の矯正による外国語アクセント変換2022

    • Author(s)
      許 誠, 岸田 拓也, 中鹿 亘
    • Organizer
      日本音響学会2023年春季研究発表会, 1-3P-11, March 2023.
    • Related Report
      2022 Research-status Report
  • [Presentation] 入力特徴量で条件づけた拡散確率モデルによるパラレル声質変換2022

    • Author(s)
      岸田拓也, 中鹿亘
    • Organizer
      第146回研究会音声言語情報処理研究会, March 2023.
    • Related Report
      2022 Research-status Report
  • [Presentation] 条件付き制限ボルツマンマシンの平衡化傾向を利用したノンパラレル声質変換2022

    • Author(s)
      岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年秋季研究発表会,2-Q-48,pp. 1305-1306, September 2022.
    • Related Report
      2022 Research-status Report
  • [Presentation] 話者因子係数の量子化に基づく声色制御可能な話者変換2022

    • Author(s)
      井硲巧, 大西弘太郎, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年秋季研究発表会, 2-Q-47, pp. 1301-1304, September 2022.
    • Related Report
      2022 Research-status Report
  • [Presentation] 制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2022

    • Author(s)
      古田翔太郎, 岸田拓也, 中鹿亘
    • Organizer
      音学シンポジウム2022, SP2022-8, pp. 26-29, June 2022.
    • Related Report
      2022 Research-status Report
  • [Presentation] LSP周波数間隔のクロスエントロピー誤差最小化に基づくVAE声質変換2022

    • Author(s)
      平本佳弘, 嵯峨山茂樹, 岸田拓也, 中鹿亘
    • Organizer
      音学シンポジウム2022, SP2022-23, pp. 100-103, June 2022.
    • Related Report
      2022 Research-status Report
  • [Presentation] リズムスタイルを考慮したFader Networksに基づく外国語学習者の発音変換2022

    • Author(s)
      王庭輝, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 非可逆圧縮を用いた敵対的ニューラルボコーダのためのデータ拡張法2022

    • Author(s)
      大西弘太郎, 中鹿亘
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] TTSモデルにおけるアラインメントロバスト性向上のための非停滞化制約付きForward Attention2022

    • Author(s)
      Zhou Yujin, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 印象表現語ラベルを用いたFaderNetworksに基づく音声印象変換2022

    • Author(s)
      岡留有希, 大西弘太郎, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 時系列条件付きボルツマンマシンによる位相復元2022

    • Author(s)
      羽賀洋克, 矢田部浩平, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] マルチモーダルVAEを用いた顔画像に基づく目標話者音声不要な声質変換2022

    • Author(s)
      飯田紘崇, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 話者依存度に応じた特徴抽出器によるdisentagle な声質変換2021

    • Author(s)
      井硲 巧, 岸田 拓也, 中鹿 亘
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 深層エネルギーベースモデルによる音声の音響特徴量の生成2021

    • Author(s)
      岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 話者特徴抽出器を加えたFaderNetVCによる未知話者声質変換2021

    • Author(s)
      井硲巧, 岸田拓也, 中鹿亘
    • Organizer
      音学シンポジウム2021
    • Related Report
      2021 Research-status Report
  • [Book] IT Text 深層学習2022

    • Author(s)
      柳井 啓司、中鹿 亘、稲葉 通将
    • Total Pages
      288
    • Publisher
      オーム社
    • ISBN
      4274228886
    • Related Report
      2022 Research-status Report
  • [Patent(Industrial Property Rights)] 声質変換装置、声質変換方法及びプログラム2021

    • Inventor(s)
      大西弘太郎, 中鹿亘
    • Industrial Property Rights Holder
      大西弘太郎, 中鹿亘
    • Industrial Property Rights Type
      特許
    • Industrial Property Number
      2021-026128
    • Filing Date
      2021
    • Related Report
      2021 Research-status Report

URL: 

Published: 2021-04-28   Modified: 2025-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi