Phantom in the Opera: the Vulnerabilities of Speech Interface for Robotic Dialogue System

研究課題

研究課題/領域番号	21K17837
研究種目	若手研究
配分区分	基金
審査区分	小区分61050:知能ロボティクス関連
研究機関	国立研究開発法人情報通信研究機構
研究代表者	李勝国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 研究員 (70840940)
研究期間 (年度)	2021-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	2,080千円 (直接経費: 1,600千円、間接経費: 480千円) 2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
キーワード	speech recognition / adversarial attack / privacy perserving / deepfake detection / spoken dialogue / federated learning / security / privacy preserving / quality estimation / spoken dialogue system / adversarial attacks / speech enhancement / Speech recognition / Dialogue robotic system / Adversarial attack / Deep neural network
研究開始時の研究の概要	As the most natural human-machine interface, the automatic speech recognition (ASR) module plays a crucial role in these recent robot dialogue systems. However, a deep neural network (DNN) is known to be vulnerable to adversarial examples (or attacks). This is a severe problem. This study will make an in-depth study to the robustness of the ASR modules of a robot dialogue system.
研究成果の概要	このプロジェクトでは、音声認識システムの原理を研究し、攻撃の詳細を調査。調査結果をまとめ、音声認識システムの改善方法を提案しました。研究範囲を普遍的視点で拡大し、音声関連システムにも同様の攻撃が共存できることを示しました。敵対的攻撃をノイズとみなし、音声強化・モデリング・ポストプロセッシング法を組み合わせて対処。InterspeechやICASSPなどが成果を認め、2冊の本に紹介され、関西国立図書館に収められました。これはAIシステムの安全性と信頼性の確保に貢献しています。
研究成果の学術的意義や社会的意義	The development of deep neural networks has been progressing rapidly and the evolution of speech recognition systems has been incredibly fast. The study aims to provide researchers with ideas on improving system security in light of the increasingly severe security issues.

報告書

(3件)

2022 実績報告書研究成果報告書 ( PDF )
2021 実施状況報告書

研究成果
(40件)

すべて 2023 2022 2021 その他

すべて国際共同研究 (2件) 雑誌論文 (4件) (うち国際共著 2件、査読あり 4件、オープンアクセス 4件) 学会発表 (28件) (うち国際学会 28件) 図書 (2件) 備考 (4件)

[国際共同研究] Tianjin University/Xinjiang University/Royal Flush AI Research Inc.(中国)
- 関連する報告書
  2021 実施状況報告書
[国際共同研究] Nanyang Technological University(シンガポール)
- 関連する報告書
  2021 実施状況報告書
[雑誌論文] Cross-Lingual Transfer Learning for End-to-End Speech Translation2022
- 著者名/発表者名
  Shimizu Shuichiro、Chu Chenhui、Li Sheng、Kurohashi Sadao
- 雑誌名
  
  自然言語処理
  
  巻: 29 号: 2 ページ: 611-637
- DOI
  10.5715/jnlp.29.611
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies2022
- 著者名/発表者名
  Soky Kak、Mimura Masato、Kawahara Tatsuya、Chu Chenhui、Li Sheng、Ding Chenchen、Sam Sethserey
- 雑誌名
  
  International Journal of Asian Language Processing
  
  巻: 31 号: 03n04 ページ: 1-21
- DOI
  10.1142/s2717554522500072
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Improving low-resource Tibetan end-to-end ASR by multilingual and multilevel unit modeling2022
- 著者名/発表者名
  Qin Siqing、Wang Longbiao、Li Sheng、Dang Jianwu、Pan Lixin
- 雑誌名
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  巻: 2022 号: 1 ページ: 1-10
- DOI
  10.1186/s13636-021-00233-4
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Adversarial Attack and Defense on Deep Neural Network-Based Voice Processing Systems: An Overview2021
- 著者名/発表者名
  Chen Xiaojiao、Li Sheng、Huang Hao
- 雑誌名
  
  Applied Sciences
  
  巻: 11 号: 18 ページ: 8450-8450
- DOI
  10.3390/app11188450
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] GENERAL OR SPECIFIC? INVESTIGATING EFFECTIVE PRIVACY PROTECTION IN FEDERATED LEARNING FOR SPEECH EMOTION RECOGNITION2023
- 著者名/発表者名
  Chao Tan, Yang Cao, Sheng Li and Masatoshi Yoshikawa
- 学会等名
  ICASSP
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] DOMAIN AND LANGUAGE ADAPTATION USING HETEROGENEOUS DATASETS FOR WAV2VEC2.0-BASED SPEECH RECOGNITION OF LOW-RESOURCE LANGUAGE2023
- 著者名/発表者名
  Kak Soky, Sheng Li, Chenhui Chu, Tatsuya Kawahara
- 学会等名
  ICASSP
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Relationship Between Speakers' Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network2022
- 著者名/発表者名
  Kai Li, Xugang Lu, Masato Akagi, Jianwu Dang, Sheng Li, Masashi Unoki
- 学会等名
  30th European Signal Processing Conference (EUSIPCO)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Leveraging Simultaneous Translation for Enhancing Transcription of Low-resource Language via Cross Attention Mechanism2022
- 著者名/発表者名
  Kak Soky, Sheng Li, Masato Mimura, Chenhui Chu, Tatsuya Kawahara
- 学会等名
  INTERSPEECH 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Augmented Adversarial Self-Supervised Learning for Early-Stage Alzheimer's Speech Detection2022
- 著者名/発表者名
  Longfei Yang, Wenqing Wei, Sheng Li, Jiyi Li, Takahiro Shinozaki
- 学会等名
  INTERSPEECH 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection2022
- 著者名/発表者名
  Kai Li, Sheng Li, Xugang Lu, Masato Akagi, Meng Liu, Lin Zhang, Chang Zeng, Longbiao Wang, Jianwu Dang, Masashi Unoki
- 学会等名
  INTERSPEECH 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Fusion of Self-supervised Learned Models for MOS Prediction2022
- 著者名/発表者名
  Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre, Raphael Rubino, Yi Zhao
- 学会等名
  INTERSPEECH 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Monaural Speech Enhancement Based on Spectrogram Decomposition for Convolutional Neural Network-sensitive Feature Extraction2022
- 著者名/発表者名
  Hao Shi, Longbiao Wang, Sheng Li, Jianwu Dang, Tatsuya Kawahara
- 学会等名
  INTERSPEECH 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Multi-Domain Dialogue State Tracking with Top-k Slot Self Attention2022
- 著者名/発表者名
  Longfei Yang, Jiyi Li, Sheng Li, Takahiro Shinozaki
- 学会等名
  SIGdial Meeting Discourse \& Dialogue 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Nict-Tib1: A Public Speech Corpus Of Lhasa Dialect For Benchmarking Tibetan Language Speech Recognition Systems2022
- 著者名/発表者名
  Kak Soky, Zhuo Gong, Sheng Li
- 学会等名
  25th Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Subband-based Spectrogram Fusion for Speech Enhancement by Combining Mapping and Masking Approaches2022
- 著者名/発表者名
  Hao Shi, Longbiao Wang, Sheng Li, Jianwu Dang, Tatsuya Kawahara
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Can We Train a Language Model Inside an End-to-End ASR Model? - Investigating Effective Implicit Language Modeling2022
- 著者名/発表者名
  Zhuo Gong, Saito Daisuke, Sheng Li, Hisashi Kawai, Minematsu Nobuaki
- 学会等名
  Proceedings of the Second Workshop on When Creative AI Meets Conversational AI
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Self-Adaptive Multilingual ASR Rescoring with Language Identification and Unified Language Model2022
- 著者名/発表者名
  Z. Gong, D. Saito, L. Yang, T. Shinozaki, S. Li, H. Kawai and N. Minematsu
- 学会等名
  ISCA-Odyssey (The Speaker and Language Recognition Workshop)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Adversarial Speech Generation and Natural Speech Recovery for Speech Content Protection2022
- 著者名/発表者名
  S. Li, J. Li, Q. Liu and Z. Gong
- 学会等名
  LREC (Language Resources and Evaluation Conference)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Compressing Transformer-based ASR Model by Task-driven Loss and Attention-based Multi-level Feature Distillation2022
- 著者名/発表者名
  Y. Lv, L. Wang, M. Ge, S. Li, C. Ding, L. Pan, Y. Wang, J. Dang, K. Honda
- 学会等名
  in Proc. IEEE-ICASSP, pp. 7992--7996, 2022.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Mining Hard Samples Locally and Globally for Improved Speech Separation2022
- 著者名/発表者名
  K. Wang, Y. Peng, H. Huang, Y. Hu, and S. Li
- 学会等名
  in Proc. IEEE-ICASSP, pp. 6037--6041, 2022.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] The System Description for VoiceMOS Challenge 2022 (KK team, main/ood tasks)2022
- 著者名/発表者名
  S. Li, R. Dabre, R. Raphael, W. Zhou, Z. Yang, C. Chu, Y. Zhao
- 学会等名
  VoiceMOS Challenge 2022
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Spectrograms Fusion-based End-to-End Robust Automatic Speech Recognition2021
- 著者名/発表者名
  H. Shi, L. Wang, S. Li, C. Fan, J. Dang, and T. Kawahara
- 学会等名
  In Proc. APSIPA ASC, pp. 438--442, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Multilingual Approach to Joint Speech and Accent Recognition with DNN-HMM Framework2021
- 著者名/発表者名
  Y. Peng, J. Zhang, H. Zhang, H. Xu, H. Huang, S. Li, and E.S. Chng
- 学会等名
  In Proc. APSIPA ASC, pp. 1043--1048, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] On the Use of Speaker Information for Automatic Speech Recognition in Speaker-imbalanced Corpora2021
- 著者名/発表者名
  K. Soky, S. Li, M. Mimura, C. Chu, and T. Kawahara
- 学会等名
  In Proc. APSIPA ASC, pp. 433--437, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] An End-to-End Dialect Identification System with Transfer Learning from a Multilingual Automatic Speech Recognition Model2021
- 著者名/発表者名
  D. Wang, S. Ye, X. Hu, S. Li, and X. Xu
- 学会等名
  in Proc. INTERSPEECH, pp. 3266--3270, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] End-to-End Speech Separation Using Orthogonal Representation in Complex and Real Time- Frequency Domain2021
- 著者名/発表者名
  K. Wang, H. Huang, Y. Hu, Z. Huang, and S. Li
- 学会等名
  in Proc. INTERSPEECH, pp. 3046--3050, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] The RoyalFlush-NICT System Description for AP21-OLR Challenge (Silk-road team, full tasks)2021
- 著者名/発表者名
  D. Wang, S. Ye, X. Hu, S. Li
- 学会等名
  OLR2021 (oriental language recognition challenge)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] System description of Alzheimer's disease early detection (Silk-road team, short speech track)2021
- 著者名/発表者名
  W. Wei, R. Wong, S. Li, Y. Guo and H. Huang
- 学会等名
  In special session of NCMMSC2021 (Alzheimer's disease detection challenge), 2021
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Adversarial Attack and Defense on Deep Neural Network-based Voice Processing Systems: An Overview2021
- 著者名/発表者名
  X. Chen, H. Huang, and S. Li
- 学会等名
  National Conference on Man-Machine Speech Communication (NCMMSC), 2021. (report is selected to publish in Applied Sciences, Special Issues of Machine Speech Communication)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Speech Dereverberation Based on Scale-aware Mean Square Error Loss2021
- 著者名/発表者名
  L. Qiang, H. Shi, M. Ge, H. Yin, N. Li, L. Wang, S. Li and J. Dang
- 学会等名
  International Conference on Neural Information Processing (ICONIP2021), pp 55-63, Springer, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Simultaneous Progressive Filtering-based Monaural Speech Enhancement2021
- 著者名/発表者名
  H. Yin, L. Qiang, H. Shi, L. Wang, S. Li, M. Ge, G. Zhang and J. Dang
- 学会等名
  International Conference on Neural Information Processing (ICONIP2021), pp 213-221, Springer, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Exploring Effective Speech Representation via ASR for High-Quality End-to-End Multispeaker TTS2021
- 著者名/発表者名
  D. Liu, L. Wang, S. Li, H. Li, C. Ding, J. Zhang and J. Dang
- 学会等名
  International Conference on Neural Information Processing (ICONIP2021), pp 110-118, Springer, 2021.
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[図書] Voices of the Himalayas: Investigation of Speech Recognition Technology for the Tibetan Language2022
- 著者名/発表者名
  Sheng Li
- 総ページ数
  112
- 出版者
  NICT
- ISBN
  9784904020289
- 関連する報告書
  2022 実績報告書
[図書] Phantom in the Opera: The Vulnerabilities of Speech-based Artificial Intelligence Systems2022
- 著者名/発表者名
  Sheng Li
- 総ページ数
  110
- 出版者
  NICT
- ISBN
  9784904020265
- 関連する報告書
  2022 実績報告書
[備考] 情報通信研究機構の研究成果として、各年ごとの発表論文を日付順で紹介します。
- URL
  https://www.nict.go.jp/outcome/journals/journals_2021_j.html
- 関連する報告書
  2021 実施状況報告書
[備考] 情報通信研究機構の研究成果として、各年ごとの発表論文を日付順で紹介します。
- URL
  https://www.nict.go.jp/outcome/proceedings/proceedings_2021_j.html
- 関連する報告書
  2021 実施状況報告書
[備考] google scholar of Sheng Li
- URL
  https://scholar.google.com/citations?user=zHAhs0IAAAAJ&hl=en
- 関連する報告書
  2021 実施状況報告書
[備考] Lab homepage of Sheng Li
- URL
  https://ast-astrec.nict.go.jp/member/sheng-li/index.html
- 関連する報告書
  2021 実施状況報告書

Phantom in the Opera: the Vulnerabilities of Speech Interface for Robotic Dialogue System

研究代表者

李 勝 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 研究員 (70840940)

2,080千円 (直接経費: 1,600千円、間接経費: 480千円)

報告書

研究成果

[国際共同研究] Tianjin University/Xinjiang University/Royal Flush AI Research Inc.(中国)

関連する報告書

[国際共同研究] Nanyang Technological University(シンガポール)

関連する報告書

[雑誌論文] Cross-Lingual Transfer Learning for End-to-End Speech Translation2022

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Improving low-resource Tibetan end-to-end ASR by multilingual and multilevel unit modeling2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Adversarial Attack and Defense on Deep Neural Network-Based Voice Processing Systems: An Overview2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] GENERAL OR SPECIFIC? INVESTIGATING EFFECTIVE PRIVACY PROTECTION IN FEDERATED LEARNING FOR SPEECH EMOTION RECOGNITION2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] DOMAIN AND LANGUAGE ADAPTATION USING HETEROGENEOUS DATASETS FOR WAV2VEC2.0-BASED SPEECH RECOGNITION OF LOW-RESOURCE LANGUAGE2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Relationship Between Speakers' Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Leveraging Simultaneous Translation for Enhancing Transcription of Low-resource Language via Cross Attention Mechanism2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Augmented Adversarial Self-Supervised Learning for Early-Stage Alzheimer's Speech Detection2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Fusion of Self-supervised Learned Models for MOS Prediction2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Monaural Speech Enhancement Based on Spectrogram Decomposition for Convolutional Neural Network-sensitive Feature Extraction2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Multi-Domain Dialogue State Tracking with Top-k Slot Self Attention2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Nict-Tib1: A Public Speech Corpus Of Lhasa Dialect For Benchmarking Tibetan Language Speech Recognition Systems2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Subband-based Spectrogram Fusion for Speech Enhancement by Combining Mapping and Masking Approaches2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Can We Train a Language Model Inside an End-to-End ASR Model? - Investigating Effective Implicit Language Modeling2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Self-Adaptive Multilingual ASR Rescoring with Language Identification and Unified Language Model2022

李勝国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 研究員 (70840940)