2020 Fiscal Year Annual Research Report

Research on auditory-media signal processing for defending against attacks of media clones

Research Project

Project/Area Number	17H01761
Research Institution	Japan Advanced Institute of Science and Technology
Principal Investigator	鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
Co-Investigator(Kenkyū-buntansha)	赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	聴覚メディア信号処理 / メディアクローン / 音声合成技術 / 聴覚センシング / 音響情報ハイディング / 音響電子透かし
Outline of Annual Research Achievements	本年度（最終年度）は，音声のメディアクローン生成・認識法を深く理解するために，VAEとStarGANを利用して，音声の話者性と発話内容を切り分けて制御可能な音声変換法を提案した．音声変換の総合評価の結果，提案法は，VQ-VAE法といった従来法よりも，高い音質を保持しつつ，音声の話者性と発話内容の変換に対して有効であることがわかった．これらの結果から，音声のメディアクローンを作成する際，音声スペクトル包絡線情報と音源情報の時間変動が重要な音響的特徴であることがわかった．次に，人が発した音声なのか，あるいはメディアクローンなのかを判断するために，重要な音響的特徴を検討した．その結果，音声の子音部分や無音区間における音響的特徴の差異を利用できることがわかった．次に，音響的特徴に知覚不可能で頑健な秘匿情報を埋め込む仕組みを検討した．ここでは，メディアクローン攻撃や音声改ざん等を防ぐための情報ハイディング法として，線形予測法（LP）をベースとした音声分析合成系におけるスペクトル拡散型音声情報ハイディング法や，ロバスト主成分分析法（RPCA）とフォルマント強調法を組み合わせた音声情報ハイディング法を実現した．また，CELP音声分析合成系において，スペクトル包絡線情報の一つである線スペクトル周波数LSFに量子化変調（QIM）することで情報ハイディングする方法も実現した．最後に，両方法を利用したハイブリッド型の音声改ざん検出法も検討した．これらの方法が，典型的な改ざん攻撃に対して耐性があることを確認した．また，話者性を秘匿するAnonymization技術への応用についても検討した．これらが音声のメディアクローン検出に重要な技術に成り得ることを確認した．
Research Progress Status	令和2年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和2年度が最終年度であるため、記入しない。
Remarks	Science Impact Construction of auditory media signal processing infrastructure to prevent media clone attacks https://www.ingentaconnect.com/content/sil/impact/2020/00002020/00000002/art00008

Research Products
(12 results)

All 2021 2020

All Journal Article (9 results) (of which Peer Reviewed: 7 results, Open Access: 3 results) Presentation (3 results)

[Journal Article] Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice Separation2021
- Author(s)
  Yuan Weitao、Dong Bofei、Wang Shengbei、Unoki Masashi、Wang Wenwu
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 29 Pages: 807～822
- DOI
  10.1109/TASLP.2021.3051331
- Peer Reviewed / Open Access
[Journal Article] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021
- Author(s)
  Ho Tuan Vu、Akagi Masato
- Journal Title
  
  IEEE Access
  
  Volume: 9 Pages: 47503～47515
- DOI
  10.1109/ACCESS.2021.3063519
- Peer Reviewed / Open Access
[Journal Article] 音声メディアへの情報ハイディングとその応用2021
- Author(s)
  鵜木祐史
- Journal Title
  
  日本音響学会誌
  
  Volume: 77(6) Pages: -
[Journal Article] Synchronous multi-bit audio watermarking based on phase shifting2021
- Author(s)
  Shengbei Wang, Weitao Yuan, Zhen Zhang, Jianming Wang, Masashi Unoki
- Journal Title
  
  Proc. ICASSP2021
  
  Volume: - Pages: -
- Peer Reviewed
[Journal Article] Multi-Subspace Echo Hiding Based on Time-Frequency Similarities of Audio Signals2020
- Author(s)
  Wang Shengbei、Yuan Weitao、Unoki Masashi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 28 Pages: 2349～2363
- DOI
  10.1109/TASLP.2020.3013785
- Peer Reviewed / Open Access
[Journal Article] Audio Information Hiding Techniques Based on Human Auditory Characteristics2020
- Author(s)
  UNOKI Masashi
- Journal Title
  
  IEICE ESS Fundamentals Review
  
  Volume: 13 Pages: 284～293
- DOI
  10.1587/essfr.13.4_284
[Journal Article] X-Vector Singular Value Modification and Statistical-Based Decomposition with Ensemble Regression Modeling for Speaker Anonymization System2020
- Author(s)
  Mawalim Candy Olivia、Galajit Kasorn、Karnjana Jessada、Unoki Masashi
- Journal Title
  
  Proc. Interspeech2020
  
  Volume: - Pages: 1703-1707
- Peer Reviewed
[Journal Article] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020
- Author(s)
  Tuan Vu Ho and Masato Akagi
- Journal Title
  
  Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020
  
  Volume: - Pages: 140-144
- Peer Reviewed
[Journal Article] Speech Information Hiding by Modification of LSF Quantization Index in CELP Codec2020
- Author(s)
  Candy Olivia Mawalim, Shengbei Wang, Masashi Unoki
- Journal Title
  
  Proc. APSIPA2020
  
  Volume: - Pages: 1321-1330
- Peer Reviewed
[Presentation] Audio Information Hiding in Sub-signals by deploying Singular Spectrum Analysis and Psychoacoustic Model2021
- Author(s)
  Kasorn Galajit, Jessada Karnjana, Masashi Unoki
- Organizer
  IEICE Technical Report, EMM2020-61
[Presentation] X-vector anonymization using regression modeling with statistical and singular value2021
- Author(s)
  Candy Olivia Mawalim, Kasorn Galajit, Jessada Karnjana, Masashi Unoki
- Organizer
  IEICE Technical Report, EMM2020-62
[Presentation] 線形予測残差を用いたスペクトル拡散型音声情報ハイディング法の検討2021
- Author(s)
  鵜木祐史, ウィンラピャエ,
- Organizer
  IEICE Technical Report, EMM2020-63

2020 Fiscal Year Annual Research Report

Research on auditory-media signal processing for defending against attacks of media clones

Principal Investigator

鵜木 祐史 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)

Research Products

[Journal Article] Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice Separation2021

Author(s)

Journal Title

DOI

[Journal Article] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021

Author(s)

Journal Title

DOI

[Journal Article] 音声メディアへの情報ハイディングとその応用2021

Author(s)

Journal Title

[Journal Article] Synchronous multi-bit audio watermarking based on phase shifting2021

Author(s)

Journal Title

[Journal Article] Multi-Subspace Echo Hiding Based on Time-Frequency Similarities of Audio Signals2020

Author(s)

Journal Title

DOI

[Journal Article] Audio Information Hiding Techniques Based on Human Auditory Characteristics2020

Author(s)

Journal Title

DOI

[Journal Article] X-Vector Singular Value Modification and Statistical-Based Decomposition with Ensemble Regression Modeling for Speaker Anonymization System2020

Author(s)

Journal Title

[Journal Article] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020

Author(s)

Journal Title

[Journal Article] Speech Information Hiding by Modification of LSF Quantization Index in CELP Codec2020

Author(s)

Journal Title

[Presentation] Audio Information Hiding in Sub-signals by deploying Singular Spectrum Analysis and Psychoacoustic Model2021

Author(s)

Organizer

[Presentation] X-vector anonymization using regression modeling with statistical and singular value2021

Author(s)

Organizer

[Presentation] 線形予測残差を用いたスペクトル拡散型音声情報ハイディング法の検討2021

Author(s)

Organizer

鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)