Speech Enhancement Network using Perceptual and Physical Mathematical Model

Research Project

Project/Area Number	21K11953
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Saitama University
Principal Investigator	杉浦陽介埼玉大学, 理工学研究科, 助教 (20711617)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000) Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2021: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	音声強調 / 雑音除去 / 深層学習 / 音声合成
Outline of Research at the Start	本研究は、周囲の騒音レベルが高い環境において、音声のみを高精度に取り出す音声強調技術の開発に取り組むものである。人間の発声メカニズム(物理モデル)と知覚メカニズム(知覚モデル)を数理的に深層学習と融合させ、ネットワークの構造および学習機構を改良することで、高精度な音声強調を達成する。さらに低SNR環境下において生成される音声の特性を解析し、ネットワークモデル・学習機構の更なる改良を行う。
Outline of Annual Research Achievements	本研究は、周囲の騒音レベルが高い環境において、音声のみを高精度に取り出す音声強調技術の開発に取り組むものである。音声強調は音声認識等のあらゆる音声処理の前処理で使われる重要な技術である。ただし、ネットワークの最適化がなされておらず、劣悪な雑音環境下で性能が低下していた。そこで本研究は、人間の発声メカニズム(物理モデル)と知覚メカニズム(知覚モデル)を数理的に深層学習と融合させ、ネットワークの構造および学習機構を改良することで、高精度な音声強調を達成する。2023年度は、開発した少ないデータセットから効率的に学習するための枠組みを利用し、様々なアーキテクチャにおける有用性を確認した。実験の結果、多くのアーキテクチャで有用性を確認できたが、Transformerを有する長期言語特徴量を利用するアーキテクチャでは性能が劣化することが分かった。
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 雑音・音声データの収集はコストが高く、容易ではなかったが、近年は音声に関する大規模データセットが登場し、データセットサイズの問題は解決されつつある。一方で、大規模データセットを用いてモデルの汎化性能を上げても未学習な環境雑音に対する性能は頭打ちになるという報告もある。したがって、現在の研究方針に従い、少ないデータセットで効果的な学習を達成するための枠組みを開発する必要がある。しかし現在の開発手法は過学習を抑えることに成功しているが、大幅な改善や特定のアーキテクチャでの性能劣化など、効果が限定的であることが問題である。 2023年度はその問題の原因を探ることを目標としつつ、音声強調に特化した学習機構の開発に取り組んでいたが、計算機の熱暴走による故障などハードウェアの障害が発生し、開発に遅れが生じた。現在はクラウドサービスを活用しつつ、開発を続けている。加えて、少量データセットの活用方針として転移学習に着目していたが、より効率的な学習が必要となった。今後はメタ学習の技術を取り入れつつ、音声理解に向けた新たな学習機構を開発する必要がある。
Strategy for Future Research Activity	計算機の調達を急ぎ、学習時の時間コストを削減する。メタ学習をはじめとして少量のデータセットに対する効果的な学習を行う技術について調査を続けるとともに、音声理解に適用した時の問題点を明らかにする。特に高雑音環境下における音声構造の理解は難易度が高いため、騒音レベルに応じてある程度分けて動作・特性を調べる必要があると考えられる。

Report

(3 results)

Research Products
(1 results)

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Presentation] Verification of Effectiveness of F-Cutmix for Several Speech Enhancement Models2024
- Author(s)
  Reito Kasuga, Yosuke Sugiura, Tetsuya Shimamura
- Organizer
  2024 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing
- Related Report
  2023 Research-status Report
- Int'l Joint Research