2021 Fiscal Year Research-status Report
Speech Enhancement Network using Perceptual and Physical Mathematical Model
Project/Area Number |
21K11953
|
Research Institution | Saitama University |
Principal Investigator |
杉浦 陽介 埼玉大学, 理工学研究科, 助教 (20711617)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 音声強調 / 深層学習 / 音声合成 |
Outline of Annual Research Achievements |
本研究は、周囲の騒音レベルが高い環境において、音声のみを高精度に取り出す音声強調技術の開発に取り組むものである。音声強調は音声認識等のあらゆる音声処理の前処理で使われる重要な技術である。ただし、ネットワークの最適化がなされておらず、劣悪な雑音環境下で性能が低下していた。そこで本研究は、人間の発声メカニズム(物理モデル)と知覚メカニズム(知覚モデル)を数理的に深層学習と融合させ、ネットワークの構造および学習機構を改良することで、高精度な音声強調を達成する。2021年度においては、音声の物理的・知覚的数理モデルの構築とその有効性の確認を行うことを計画していた。 物理的モデリングに関して、音声合成の技術であるソースフィルタ理論を応用して雑音除去する仕組みを構築した。すなわち、正弦波とその高調波成分を深層ニューラルネットワークで構成されるフィルターに施し、クリーンな音声を生成する枠組みを開発した。これは、音声合成技術が音声強調にも有用であることを示すとともに、音声生成モデルの妥当性を示すものである。2022年度は、自然性・明瞭性の改善に向けて構造・ハイパーパラメータのチューニングを行う。さらに、この物理的モデリングの有用性を確認する。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2021年度においては、高雑音環境下における高精度な音声強調の実現にむけて、音声の物理的・知覚的数理モデルの構築とその有効性の確認を行うことを計画していた。現在までの進捗状況として、音声の物理的モデリングを反映させた音声強調システムの構築を行った。 一方で、音声の知覚的モデリングを音響特徴量のみで行うことは適切でなく、言語特徴量も含めて多元的に考える必要がある。また時間軸上で短期区間・長期区間のどちらも音声の知覚的性質に関わっているため、それらをさらに統合的に扱うよう工夫が必要である。知覚的モデリングの難易度の高さから、当初の計画より進捗が遅れている。
|
Strategy for Future Research Activity |
2022年度においては、音声の知覚的モデリングを進め、物理的モデルとの統合と低SNR環境における問題点の洗い出しを行う。ここで当初の計画との違いは、知覚的モデリングの追加である。従来の音声強調における知覚的音質評価を参考にするのみならず、音響分野や心理学の文献を調査し、統合的な視点からの解析と数理化を行う。またネットワークモデルと学習機構の統合により、生成音声の改善を確認する。さらにネットワークモデルと学習機構の理論的な整合性を取るよう、各々の更なる改良を行う。ここまでの成果を論文にまとめ、論文誌に投稿する。次に、雑音レベルを上げて、低SNR環境における本手法の有効性と問題点(どのような雑音に対して音声復元が難しいのか、どのような発話に対して明瞭性が低下するのか)を明確にする。
|
Causes of Carryover |
2021年度に購入予定だった計算機について、新型感染症の影響で機器の価格が一時的に上昇していたが、2022年度において価格が落ち着いている傾向なので、2022年度において購入する。
|