音声スペクトルを対数的に表現する浅層ニューラルネットに関する研究

研究課題

研究課題/領域番号	21K11957
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	電気通信大学
研究代表者	中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
研究分担者	矢田部浩平東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	音声符号化 / 音声モデリング / 機械学習 / 複素確率分布 / ボルツマンマシン / ガンマ分布 / フォン・ミーゼス分布 / 音源分離 / 音声信号処理 / 確率・統計 / 音声合成 / ニューラルネットワーク
研究開始時の研究の概要	音声は重要なコミュニーケーションツールの一つであり，スマートフォンなど身の回りで様々な音声技術が利用されている。そのバックエンドには機械学習が用いられている。音声の重要な情報としてスペクトルがあり，特に対数振幅スペクトルがよく用いられるが，近年では聴覚上位相の重要性も指摘されている。本研究では，音声に適した新しい機械学習手法として，浅層ニューラルネットである制限ボルツマンマシン(RBM)を用いて対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する。深層学習とは異なり，RBMはコンパクトで解釈性があり，データの確率分布を陽に仮定できるため，より適切に音声を表現することができる。
研究成果の概要	音声は重要なコミュニーケーションツールの一つであり，身の回りで様々な音声技術が活用されている。そのバックエンドには，特に近年世界中で注目されていることから深層学習が盲目的に利用されることが多い。深層学習は個々のタスクに対して非常に高い性能を示す反面，パラメータ数が膨大であり計算コストが高いというデメリットがある。計算資源の限られた小型デバイスにはパラメータ数の少ないコンパクトな機械学習モデルの方が望ましい。本研究では，音声データ特有の性質や構造に着目し，データを適切に表現するコンパクトな浅層モデルの方法論と枠組みを新たに提案し，複数の実験によって提案モデルの有効性を検証した。
研究成果の学術的意義や社会的意義	本研究では，音声のデータ構造に着目し，主に音声複素スペクトルを対数的に表現する複素浅層ニューラルネットを提案した。重要な本研究成果の1つとして，このモデルが，僅か800バイト程度の情報量で，最新の深層学習技術に基づく巨大なニューラルネットワークモデルと同程度の性能を示した，ということが挙げられる。このことから闇雲にパラメータ数を増やしてモデルを巨大化させるのではなく，知恵を絞って適切にデータを表現する方が得策であると言える。またこのようなコンパクトな浅層モデルは，演算による消費電力を抑えることにもなり，省エネで地球環境に配慮したグリーンコンピューティングなアプローチとして貢献することができる。

報告書

(4件)

研究成果
(38件)

すべて 2024 2023 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (35件) (うち国際学会 4件) 図書 (1件) 産業財産権 (1件)

[雑誌論文] Gamma Boltzmann Machine for Audio Modeling2021
- 著者名/発表者名
  Nakashika Toru、Yatabe Kohei
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 29 ページ: 2591-2605
- DOI
  10.1109/taslp.2021.3095656
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 分類型半制限ボルツマンマシンによる全音程関係を考慮した和音認識2024
- 著者名/発表者名
  石川峻弥，中鹿亘
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 事前学習済みモデルによる埋め込み表現を組み込んだ音声編集モデルの検討2024
- 著者名/発表者名
  平本佳弘，中鹿亘
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換2024
- 著者名/発表者名
  畠山瑠一，奥田耕平，中鹿亘
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 歌唱音声合成におけるF0の自然性向上のためのDiffusion-GANモデルの検討2024
- 著者名/発表者名
  芦田裕飛，中鹿亘
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] FaderNetworksを用いたF0変換による歌唱技術の付与2024
- 著者名/発表者名
  後藤純平，中鹿亘
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 2種のラグ窓によるスペクトル平滑化を用いたF0推定2024
- 著者名/発表者名
  越森道貴，嵯峨山茂樹，中鹿亘
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] DDPMVC: 連続時間拡散確率モデルを用いた非パラレル声質変換と評価2024
- 著者名/発表者名
  畠山瑠一，奥田耕平，中鹿亘
- 学会等名
  電子情報通信学会2024年3月音声研究会
- 関連する報告書
  2023 実績報告書
[学会発表] 複数のラグ窓対を用いた音声基本周波数と周期性尺度の推定2024
- 著者名/発表者名
  越森道貴，嵯峨山茂樹，中鹿亘
- 学会等名
  電子情報通信学会2024年3月音声研究会
- 関連する報告書
  2023 実績報告書
[学会発表] 潜在変数と観測データにガンマ分布を仮定したVAEによる音声振幅スペクトル表現2024
- 著者名/発表者名
  今市夏菜子，中鹿亘
- 学会等名
  電子情報通信学会2024年3月音声研究会
- 関連する報告書
  2023 実績報告書
[学会発表] Transformerを用いた脳波信号からの音声復元の検討2024
- 著者名/発表者名
  水野友暁，岸田拓也，吉村奈津江，中鹿亘
- 学会等名
  電子情報通信学会2024年3月音声研究会
- 関連する報告書
  2023 実績報告書
[学会発表] ベータ分布に基づくFaderNetを用いた音声印象変換の性能評価2023
- 著者名/発表者名
  釘本咲, 中鹿亘
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] レイリー型制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2023
- 著者名/発表者名
  古田翔太郎, 中鹿亘
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] SiFiSinger: SiFi-GANを内包した歌唱音声合成2023
- 著者名/発表者名
  芦田裕飛, 中鹿亘
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] FaderNetを用いた未知話者に対する音声印象変換2023
- 著者名/発表者名
  釘本咲, 中鹿亘
- 学会等名
  音学シンポジウム2023
- 関連する報告書
  2023 実績報告書
[学会発表] Consistency Regularization for GAN-Based Neural Vocoders2022
- 著者名/発表者名
  Kotaro Onishi, Toru Nakashika
- 学会等名
  APSIPA 2022, pp. 1132-1137, November 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] MoCoVC: Non-Parallel Voice Conversion With Momentum Contrastive Representation Learning2022
- 著者名/発表者名
  Kotaro Onishi, Toru Nakashika
- 学会等名
  APSIPA 2022, pp. 1435-1440, November 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Non-parallel voice conversion based on free-energy minimization of speaker-conditional restricted Boltzmann machine2022
- 著者名/発表者名
  Takuya Kishida, Toru Nakashika
- 学会等名
  APSIPA 2022, November 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Controllable voice conversion based on quantization of voice factor scores2022
- 著者名/発表者名
  Takumi Isako, Kotaro Onishi, Takuya Kishida, Toru Nakashika
- 学会等名
  APSIPA 2022, pp. 1444-1448, November 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Dual Diffusion Implicit Bridgesを用いた話者間の匿名性を担保した声質変換2022
- 著者名/発表者名
  奥田耕平岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2023年春季研究発表会，1-3Q-10, March 2023, March 2023.
- 関連する報告書
  2022 実施状況報告書
[学会発表] 振幅重み付けエネルギー関数を用いたボルツマンマシンによる位相復元2022
- 著者名/発表者名
  羽賀洋克, 矢田部浩平, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2023年春季研究発表会, 3-3-13, pp. 769-770, March 2023.
- 関連する報告書
  2022 実施状況報告書
[学会発表] Speechsplit を用いたイントネーション・リズム・発音の矯正による外国語アクセント変換2022
- 著者名/発表者名
  許誠, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2023年春季研究発表会, 1-3P-11, March 2023.
- 関連する報告書
  2022 実施状況報告書
[学会発表] 入力特徴量で条件づけた拡散確率モデルによるパラレル声質変換2022
- 著者名/発表者名
  岸田拓也, 中鹿亘
- 学会等名
  第146回研究会音声言語情報処理研究会, March 2023.
- 関連する報告書
  2022 実施状況報告書
[学会発表] 条件付き制限ボルツマンマシンの平衡化傾向を利用したノンパラレル声質変換2022
- 著者名/発表者名
  岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年秋季研究発表会，2-Q-48，pp. 1305-1306, September 2022.
- 関連する報告書
  2022 実施状況報告書
[学会発表] 話者因子係数の量子化に基づく声色制御可能な話者変換2022
- 著者名/発表者名
  井硲巧, 大西弘太郎, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年秋季研究発表会, 2-Q-47, pp. 1301-1304, September 2022.
- 関連する報告書
  2022 実施状況報告書
[学会発表] 制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2022
- 著者名/発表者名
  古田翔太郎, 岸田拓也, 中鹿亘
- 学会等名
  音学シンポジウム2022, SP2022-8, pp. 26-29, June 2022.
- 関連する報告書
  2022 実施状況報告書
[学会発表] LSP周波数間隔のクロスエントロピー誤差最小化に基づくVAE声質変換2022
- 著者名/発表者名
  平本佳弘, 嵯峨山茂樹, 岸田拓也, 中鹿亘
- 学会等名
  音学シンポジウム2022, SP2022-23, pp. 100-103, June 2022.
- 関連する報告書
  2022 実施状況報告書
[学会発表] リズムスタイルを考慮したFader Networksに基づく外国語学習者の発音変換2022
- 著者名/発表者名
  王庭輝, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 非可逆圧縮を用いた敵対的ニューラルボコーダのためのデータ拡張法2022
- 著者名/発表者名
  大西弘太郎, 中鹿亘
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] TTSモデルにおけるアラインメントロバスト性向上のための非停滞化制約付きForward Attention2022
- 著者名/発表者名
  Zhou Yujin, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 印象表現語ラベルを用いたFaderNetworksに基づく音声印象変換2022
- 著者名/発表者名
  岡留有希, 大西弘太郎, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 時系列条件付きボルツマンマシンによる位相復元2022
- 著者名/発表者名
  羽賀洋克, 矢田部浩平, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] マルチモーダルVAEを用いた顔画像に基づく目標話者音声不要な声質変換2022
- 著者名/発表者名
  飯田紘崇, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 話者依存度に応じた特徴抽出器によるdisentagle な声質変換2021
- 著者名/発表者名
  井硲巧, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2021年秋季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 深層エネルギーベースモデルによる音声の音響特徴量の生成2021
- 著者名/発表者名
  岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2021年秋季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 話者特徴抽出器を加えたFaderNetVCによる未知話者声質変換2021
- 著者名/発表者名
  井硲巧, 岸田拓也, 中鹿亘
- 学会等名
  音学シンポジウム2021
- 関連する報告書
  2021 実施状況報告書
[図書] IT Text 深層学習2022
- 著者名/発表者名
  柳井啓司、中鹿亘、稲葉通将
- 総ページ数
  288
- 出版者
  オーム社
- ISBN
  4274228886
- 関連する報告書
  2022 実施状況報告書
[産業財産権] 声質変換装置、声質変換方法及びプログラム2021
- 発明者名
  大西弘太郎, 中鹿亘
- 権利者名
  大西弘太郎, 中鹿亘
- 産業財産権種類
  特許
- 産業財産権番号
  2021-026128
- 出願年月日
  2021
- 関連する報告書
  2021 実施状況報告書

音声スペクトルを対数的に表現する浅層ニューラルネットに関する研究

研究代表者

中鹿 亘 電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

報告書

研究成果

[雑誌論文] Gamma Boltzmann Machine for Audio Modeling2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 分類型半制限ボルツマンマシンによる全音程関係を考慮した和音認識2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 事前学習済みモデルによる埋め込み表現を組み込んだ音声編集モデルの検討2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 歌唱音声合成におけるF0の自然性向上のためのDiffusion-GANモデルの検討2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] FaderNetworksを用いたF0変換による歌唱技術の付与2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 2種のラグ窓によるスペクトル平滑化を用いたF0推定2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] DDPMVC: 連続時間拡散確率モデルを用いた非パラレル声質変換と評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 複数のラグ窓対を用いた音声基本周波数と周期性尺度の推定2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 潜在変数と観測データにガンマ分布を仮定したVAEによる音声振幅スペクトル表現2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformerを用いた脳波信号からの音声復元の検討2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] ベータ分布に基づくFaderNetを用いた音声印象変換の性能評価2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] レイリー型制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] SiFiSinger: SiFi-GANを内包した歌唱音声合成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] FaderNetを用いた未知話者に対する音声印象変換2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Consistency Regularization for GAN-Based Neural Vocoders2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] MoCoVC: Non-Parallel Voice Conversion With Momentum Contrastive Representation Learning2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Non-parallel voice conversion based on free-energy minimization of speaker-conditional restricted Boltzmann machine2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Controllable voice conversion based on quantization of voice factor scores2022

中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)