• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

Research on auditory-media signal processing for defending against attacks of media clones

Research Project

Project/Area Number 17H01761
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

鵜木 祐史  北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)

Co-Investigator(Kenkyū-buntansha) 赤木 正人  北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)
Project Period (FY) 2017-04-01 – 2021-03-31
Keywords聴覚メディア信号処理 / メディアクローン / 音声合成技術 / 聴覚センシング / 音響情報ハイディング / 音響電子透かし
Outline of Annual Research Achievements

本年度(最終年度)は,音声のメディアクローン生成・認識法を深く理解するために,VAEとStarGANを利用して,音声の話者性と発話内容を切り分けて制御可能な音声変換法を提案した.音声変換の総合評価の結果,提案法は,VQ-VAE法といった従来法よりも,高い音質を保持しつつ,音声の話者性と発話内容の変換に対して有効であることがわかった.これらの結果から,音声のメディアクローンを作成する際,音声スペクトル包絡線情報と音源情報の時間変動が重要な音響的特徴であることがわかった.
次に,人が発した音声なのか,あるいはメディアクローンなのかを判断するために,重要な音響的特徴を検討した.その結果,音声の子音部分や無音区間における音響的特徴の差異を利用できることがわかった.
次に,音響的特徴に知覚不可能で頑健な秘匿情報を埋め込む仕組みを検討した.ここでは,メディアクローン攻撃や音声改ざん等を防ぐための情報ハイディング法として,線形予測法(LP)をベースとした音声分析合成系におけるスペクトル拡散型音声情報ハイディング法や,ロバスト主成分分析法(RPCA)とフォルマント強調法を組み合わせた音声情報ハイディング法を実現した.また,CELP音声分析合成系において,スペクトル包絡線情報の一つである線スペクトル周波数LSFに量子化変調(QIM)することで情報ハイディングする方法も実現した.
最後に,両方法を利用したハイブリッド型の音声改ざん検出法も検討した.これらの方法が,典型的な改ざん攻撃に対して耐性があることを確認した.また,話者性を秘匿するAnonymization技術への応用についても検討した.これらが音声のメディアクローン検出に重要な技術に成り得ることを確認した.

Research Progress Status

令和2年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和2年度が最終年度であるため、記入しない。

Remarks

Science Impact Construction of auditory media signal processing infrastructure to prevent media clone attacks
https://www.ingentaconnect.com/content/sil/impact/2020/00002020/00000002/art00008

  • Research Products

    (12 results)

All 2021 2020

All Journal Article (9 results) (of which Peer Reviewed: 7 results,  Open Access: 3 results) Presentation (3 results)

  • [Journal Article] Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice Separation2021

    • Author(s)
      Yuan Weitao、Dong Bofei、Wang Shengbei、Unoki Masashi、Wang Wenwu
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 29 Pages: 807~822

    • DOI

      10.1109/TASLP.2021.3051331

    • Peer Reviewed / Open Access
  • [Journal Article] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021

    • Author(s)
      Ho Tuan Vu、Akagi Masato
    • Journal Title

      IEEE Access

      Volume: 9 Pages: 47503~47515

    • DOI

      10.1109/ACCESS.2021.3063519

    • Peer Reviewed / Open Access
  • [Journal Article] 音声メディアへの情報ハイディングとその応用2021

    • Author(s)
      鵜木祐史
    • Journal Title

      日本音響学会誌

      Volume: 77(6) Pages: -

  • [Journal Article] Synchronous multi-bit audio watermarking based on phase shifting2021

    • Author(s)
      Shengbei Wang, Weitao Yuan, Zhen Zhang, Jianming Wang, Masashi Unoki
    • Journal Title

      Proc. ICASSP2021

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] Multi-Subspace Echo Hiding Based on Time-Frequency Similarities of Audio Signals2020

    • Author(s)
      Wang Shengbei、Yuan Weitao、Unoki Masashi
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 28 Pages: 2349~2363

    • DOI

      10.1109/TASLP.2020.3013785

    • Peer Reviewed / Open Access
  • [Journal Article] Audio Information Hiding Techniques Based on Human Auditory Characteristics2020

    • Author(s)
      UNOKI Masashi
    • Journal Title

      IEICE ESS Fundamentals Review

      Volume: 13 Pages: 284~293

    • DOI

      10.1587/essfr.13.4_284

  • [Journal Article] X-Vector Singular Value Modification and Statistical-Based Decomposition with Ensemble Regression Modeling for Speaker Anonymization System2020

    • Author(s)
      Mawalim Candy Olivia、Galajit Kasorn、Karnjana Jessada、Unoki Masashi
    • Journal Title

      Proc. Interspeech2020

      Volume: - Pages: 1703-1707

    • Peer Reviewed
  • [Journal Article] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020

    • Author(s)
      Tuan Vu Ho and Masato Akagi
    • Journal Title

      Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020

      Volume: - Pages: 140-144

    • Peer Reviewed
  • [Journal Article] Speech Information Hiding by Modification of LSF Quantization Index in CELP Codec2020

    • Author(s)
      Candy Olivia Mawalim, Shengbei Wang, Masashi Unoki
    • Journal Title

      Proc. APSIPA2020

      Volume: - Pages: 1321-1330

    • Peer Reviewed
  • [Presentation] Audio Information Hiding in Sub-signals by deploying Singular Spectrum Analysis and Psychoacoustic Model2021

    • Author(s)
      Kasorn Galajit, Jessada Karnjana, Masashi Unoki
    • Organizer
      IEICE Technical Report, EMM2020-61
  • [Presentation] X-vector anonymization using regression modeling with statistical and singular value2021

    • Author(s)
      Candy Olivia Mawalim, Kasorn Galajit, Jessada Karnjana, Masashi Unoki
    • Organizer
      IEICE Technical Report, EMM2020-62
  • [Presentation] 線形予測残差を用いたスペクトル拡散型音声情報ハイディング法の検討2021

    • Author(s)
      鵜木祐史, ウィン ラ ピャエ,
    • Organizer
      IEICE Technical Report, EMM2020-63

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi