2018 Fiscal Year Annual Research Report

Research on auditory-media signal processing for defending against attacks of media clones

Research Project

Project/Area Number	17H01761
Research Institution	Japan Advanced Institute of Science and Technology
Principal Investigator	鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
Co-Investigator(Kenkyū-buntansha)	赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	聴覚メディア信号処理 / メディアクローン / 音声合成技術 / 聴覚センシング / 音響情報ハイディング / 音響電子透かし
Outline of Annual Research Achievements	実世界の真正データから限りなく本物に近いものとして人工的に作られたメディアは「メディアクローン」と呼ばれる．近年，このメディアクローンが実世界やサイバー空間で流通され，社会的脅威となりつつある．特に，音声合成技術を駆使して産み出された本物そっくりな音声は，「なりすまし」や「改ざん」に悪用され，音声認証システムを突破するなど重大な社会問題を巻き起こしつつある．本研究の目的は，音信号のメディアクローン攻撃に対して，適切な防御策（なりすましや改ざんの検出）を実現するための聴覚メディア信号処理の基盤技術を確立することである．本年度は，音声のメディアクローン生成・認識法を深く理解し，具体的な攻撃方法を模擬検討した．まず，音声に対し，発話内容を保存したまま音声の非言語情報（感情や話者性）を自然な形で変換する仕組みと，音声の話者性を保存したまま発話内容を変換する仕組みをそれぞれ深層学習モデルで実現した．原信号と変換処理後の音声との間の自然さの向上が今後の検討課題である．次に，線形予測法（LP）をベースとした音声分析合成系における音声改ざん等を防ぐための情報ハイディング法を検討した．ここでは， LP残差を利用したスペクトル拡散型音声情報ハイディング法とロバスト主成分分析法（RPCA）とフォルマント強調法を組み合わせた音声情報ハイディング法を実現した．また，特異スペクトル分析に基づく方法を利用した音声改ざん検出法を実現し，典型的な改ざん攻撃に対して耐性があることを確認した．最後に，メディアクローンで利用される重要な音響的特徴を検討した．ここではスパース符号化の一つであり，聴覚マスキング特性を加味したSpikegramを利用した音声電子指紋を検討した．この方法により，聴覚メディア情報に含まれる人工的な情報を，音響電子指紋を検出することで，メディアクローン化の手がかりを探ることができる．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究期間では，音声のメディアクローンの生成・認識法を深く理解した上で，次の三つの課題に取り組むことを計画していた．1. 音声のメディアクローンを作成する際，何が最も重要な音響的特徴であるか明らかにする．2. ヒトが発する音と機械が発する音の音響的特徴の差異を明らかにする．3. 音響特徴に知覚不可能で頑健な秘匿情報を埋め込む仕組みをつくる．当該年度では，課題1に関して，まずどのようにメディアクローンを作成することができるかを検討した．ここでは機械学習（Variational Autoencoder）を利用した音声の声質変換法を実現し，なりすましの一つとして音声変換が可能であることを確認した．次に課題2に関しては昨年度に引き続き，音質評価指標などを利用した音源情報の分析を行った．最後に課題3に関しては，音声情報で重要な特徴（音源や声道フィルタ特性）や聴覚的特徴（マスキング特性や知覚的スペクトル形状）に秘匿情報を埋め込む仕組みを検討した．また課題2の特徴への埋め込みのため，聴覚特性の一つである蝸牛遅延を活用した秘匿情報の埋め込みも検討した．以上から，当初の計画通りに実施できていると判断できる．
Strategy for Future Research Activity	今年度の取り組みから，ヒトが発する声（音声だけでなく口唇や舌，鼻腔からでる人体雑音）と機械が発する音（例えば，AD/DA変換から生じる微小な定常的雑音やジッター・シマーのようなヒトには知覚できない位相変化をもつ音）の音響的特徴の検討も行うことで音声のメディアクローン攻撃を防ぐ方略を考えていく．また，今年度までに提案した音声情報ハイディング法を含め，音響的特徴に知覚不可能で頑健な秘匿情報の埋め込み・検出を可能とする聴覚的な情報ハイディング法を確立する．最後に，最終年度に向け，メディアクローンの検出のための，図（目的音）の秘匿情報と地（背景音）の音響電子指紋の検出方法について検討していくことで，研究の大きな前進を目指す．
Remarks	14th International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIH-MSP-2018), Best Paper Award受賞

Research Products
(20 results)

All 2019 2018

All Journal Article (4 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 4 results, Open Access: 2 results) Presentation (16 results) (of which Int'l Joint Research: 6 results, Invited: 2 results)

[Journal Article] Enhanced Feature Network for Monaural Singing Voice Separation2019
- Author(s)
  Weitao Yuan, Boxin He, Shengbei Wang, Jianming Wang, Masashi Unoki
- Journal Title
  
  Speech Communication
  
  Volume: 160 Pages: 1-6
- DOI
  https://doi.org/10.1016/j.specom.2018.11.004
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Non-parallel Dictionary-based Voice Conversion using Variational Autoencoder with Modulation Spectrum-constrained Training2018
- Author(s)
  Vu Ho-Tuan Vu and Masato Akagi
- Journal Title
  
  Journal of Signal Processing
  
  Volume: 22(4) Pages: 189-192
- DOI
  https://doi.org/10.2299/jsp.22.189
- Peer Reviewed / Open Access
[Journal Article] Digital Audio Watermarking Method Based on Singular Spectrum Analysis with Automatic Parameter Estimation Using a Convolutional Neural Network2018
- Author(s)
  Kasorn Galajit, Jessada Karnjana, Aakinee Aimmanee and Masahi Unoki
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing
  
  Volume: 2 Pages: 63-73
- DOI
  https://doi.org/10.1007/978-3-030-03748-2_8
- Peer Reviewed / Int'l Joint Research
[Journal Article] Speech watermarking based on robust principal component analysis and formant manipulations2018
- Author(s)
  Shengbei Wang, Weitao Yuan, Jianming Wang, Masashi Unoki
- Journal Title
  
  Proc. ICASSP2018
  
  Volume: - Pages: 2082-2086
- DOI
  10.1109/ICASSP.2018.8462356
- Peer Reviewed
[Presentation] Study on inaudible audio information hiding using linear-time variant IIR filter based on cochlear delay characteristics2019
- Author(s)
  Candy Olivia Mawalim and Masashi Unoki
- Organizer
  電子情報通信学会EMM研究会，沖縄
[Presentation] Study on perceptual matching-pursuit algorithm to create speech representation for speech fingerprint2019
- Author(s)
  Dung Kim Tran, Nguyen Huy Quoc, Masashi Unoki
- Organizer
  日本音響学会2019年度春季研究発表会講演，電気通信大学
[Presentation] Study on singular spectrum analysis-based speech watermarking technique with parameter estimation using differential evolution2019
- Author(s)
  Kasorn Galajit, Jessada Karnjana, Pakinee Aimmanee, and Masashi Unoki,
- Organizer
  日本音響学会2019年度春季研究発表会講演，電気通信大学
[Presentation] Study on audio information hiding using linear-time variant IIR filter based on cochlear delay characteristics2019
- Author(s)
  Candy Olivia Mawalim and Masashi Unoki
- Organizer
  電子情報通信学会EMM研究会，東北大学RIEC
[Presentation] Study on Digital Audio Watermarking Method Based on Singular Spectrum Analysis with Automatic Parameter Estimation Using a Convolutional Neural Network2019
- Author(s)
  Kasorn Galajit, Jessada Karnjana, Pakinee Aimmanee, and Masashi Unoki
- Organizer
  電子情報通信学会EMM研究会，東北大学RIEC
[Presentation] Audio/speech information hiding based on human auditory characteristics2018
- Author(s)
  Masashi Unoki
- Organizer
  10th International Conference on Knowledge and Systems Engineering (KSE 2018), Ho Chi Minh City
- Int'l Joint Research / Invited
[Presentation] 聴覚特性に基づいた音響情報ハイディング技術2018
- Author(s)
  鵜木祐史
- Organizer
  電子情報通信学会EMM研究会
- Invited
[Presentation] Study on speech watermarking method based on spread-spectrum using linear prediction residue2018
- Author(s)
  Reiya Namikawa and Masashi Unoki
- Organizer
  2019 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP2019),
- Int'l Joint Research
[Presentation] Feasibility of Audio Information Hiding Using Linear Time Variant IIR Filter Based on Cochlear Delay,” Proc.2018
- Author(s)
  Candy Olivia Mawalim and Masashi Unoki
- Organizer
  2019 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP2019),
- Int'l Joint Research
[Presentation] Digital Audio Watermarking Method Based on Singular Spectrum Analysis with Automatic Parameter Estimation Using a Convolutional Neural Network2018
- Author(s)
  Kasorn Galajit, Jessada Karnjana, Aakinee Aimmanee and Masahi Unoki
- Organizer
  Proc. IIHMSP2018
- Int'l Joint Research
[Presentation] Speech Watermarking Technique Based on Singular Spectrum Analysis and Automatic Parameter Estimation using Differential Evolution for Tampering Detection2018
- Author(s)
  Kasorn Galajit, Mongkonchai Intarauksom, Jessada Karnjana, Pakinee Aimmaneey, and Masashi Unoki
- Organizer
  Proc. The 13th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI NLP 2018),
- Int'l Joint Research
[Presentation] 線形予測残差を用いたスペクトル拡散型電子透かし法の検討2018
- Author(s)
  並河伶弥，鵜木祐史
- Organizer
  電子情報通信学会EMM研究会，ホテルこうしゅうえん
[Presentation] Study on speech representation for speech fingerprint using perceptual matching-pursuit algorithm2018
- Author(s)
  Dung Kim Tran, Nguyen Huy Quoc, Masashi Unoki
- Organizer
  電子情報通信学会EMM研究会，別府国際コンベンションセンター
[Presentation] Study on speech watermarking based on robust principal component analysis and formant manipulations2018
- Author(s)
  Shengbei Wang, Weitao Yuan, Jianming Wang, Masashi Unoki,
- Organizer
  電子情報通信学会EMM研究会，別府国際コンベンションセンター
- Int'l Joint Research
[Presentation] Non-parallel Voice Conversion using Convolutional Variational Autoencoder2018
- Author(s)
  Tuan Vu Ho and Masato Akagi
- Organizer
  ASJ '2018 Fall Meeting, Ohita Univ.
[Presentation] 線形予測符号化に基づくスペクトル拡散型音声電子透かし法の検討2018
- Author(s)
  並河伶弥，鵜木祐史
- Organizer
  第30回電気関係学会北陸支部連合大会, JAIST

2018 Fiscal Year Annual Research Report

Research on auditory-media signal processing for defending against attacks of media clones

Principal Investigator

鵜木 祐史 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Enhanced Feature Network for Monaural Singing Voice Separation2019

Author(s)

Journal Title

DOI

[Journal Article] Non-parallel Dictionary-based Voice Conversion using Variational Autoencoder with Modulation Spectrum-constrained Training2018

Author(s)

Journal Title

DOI

[Journal Article] Digital Audio Watermarking Method Based on Singular Spectrum Analysis with Automatic Parameter Estimation Using a Convolutional Neural Network2018

Author(s)

Journal Title

DOI

[Journal Article] Speech watermarking based on robust principal component analysis and formant manipulations2018

Author(s)

Journal Title

DOI

[Presentation] Study on inaudible audio information hiding using linear-time variant IIR filter based on cochlear delay characteristics2019

Author(s)

Organizer

[Presentation] Study on perceptual matching-pursuit algorithm to create speech representation for speech fingerprint2019

Author(s)

Organizer

[Presentation] Study on singular spectrum analysis-based speech watermarking technique with parameter estimation using differential evolution2019

Author(s)

Organizer

[Presentation] Study on audio information hiding using linear-time variant IIR filter based on cochlear delay characteristics2019

Author(s)

Organizer

[Presentation] Study on Digital Audio Watermarking Method Based on Singular Spectrum Analysis with Automatic Parameter Estimation Using a Convolutional Neural Network2019

Author(s)

Organizer

[Presentation] Audio/speech information hiding based on human auditory characteristics2018

Author(s)

Organizer

[Presentation] 聴覚特性に基づいた音響情報ハイディング技術2018

Author(s)

Organizer

[Presentation] Study on speech watermarking method based on spread-spectrum using linear prediction residue2018

Author(s)

Organizer

[Presentation] Feasibility of Audio Information Hiding Using Linear Time Variant IIR Filter Based on Cochlear Delay,” Proc.2018

Author(s)

Organizer

[Presentation] Digital Audio Watermarking Method Based on Singular Spectrum Analysis with Automatic Parameter Estimation Using a Convolutional Neural Network2018

Author(s)

Organizer

[Presentation] Speech Watermarking Technique Based on Singular Spectrum Analysis and Automatic Parameter Estimation using Differential Evolution for Tampering Detection2018

Author(s)

Organizer

[Presentation] 線形予測残差を用いたスペクトル拡散型電子透かし法の検討2018

Author(s)

Organizer

[Presentation] Study on speech representation for speech fingerprint using perceptual matching-pursuit algorithm2018

Author(s)

Organizer

[Presentation] Study on speech watermarking based on robust principal component analysis and formant manipulations2018

Author(s)

Organizer

[Presentation] Non-parallel Voice Conversion using Convolutional Variational Autoencoder2018

Author(s)

Organizer

[Presentation] 線形予測符号化に基づくスペクトル拡散型音声電子透かし法の検討2018

Author(s)

Organizer

鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)