2022 Fiscal Year Research-status Report

VOICE 2.0: towards augmentation of enriched speech communication

Research Project

Project/Area Number	20KK0233
Research Institution	Japan Advanced Institute of Science and Technology
Principal Investigator	鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
Co-Investigator(Kenkyū-buntansha)	赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571) 木谷俊介北陸先端科学技術大学院大学, 先端科学技術研究科, 講師 (70635367) 森田翔太福山大学, 工学部, 講師 (70780378)
Project Period (FY)	2020-10-27 – 2025-03-31
Keywords	音声コミュニケーション / エンリッチメント / 非言語情報 / 聴覚エンリッチメント / voice 2.0 / 音声了解度
Outline of Annual Research Achievements	本研究では，表現豊かな音声コミュニケーションを実現するために，音声の数理工学的な情報表現において，音声のエンリッチな情報を言語・非言語・パラ言語情報にそれぞれ分離し，それらを個別に制御することで，次の５点に関する音声エンリッチメント（VOICE 2.0）を実現する．課題① 言語情報におけるエンリッチメント，課題② 非言語情報（話者性）のエンリッチメント，課題③ 非言語情報（感情）のエンリッチメント，課題④ 非言語情報（声の質感）のエンリッチメント，課題⑤ パラ言語情報（緊迫感など）のエンリッチメント．本研究の期待するところは，音声の明瞭さや，感情，個人性，発話スタイルの変化といった声質をヒトのように高低・強弱の程度を制御して，音声コミュニケーションの付加価値を高めることにある． 2022年度は，前年度課題で検討した課題②について継続して実施した．この課題では，音声の個人性と変調知覚の関係ならびに個人性と音声生成の関係を調査し，話者変換といったエンリッチメントを検討した．ここでは，話者の個人性情報を，McAdams係数を利用して制御することで話者秘匿化やプライバシー保護ができるか検討した．その結果，高い精度で秘匿可能であることを示した．次に課題③に取り組んだ．ここでは，音声の感情と変調知覚の関係を調査した．これまでに変調スペクトログラムの高次統計量を利用して感情知覚の関係を調べてきたが，すべての感情制御に共通する特徴（変調スペクトル尖度と変調スペクトル傾斜）があることを明らかにした．また，これらの特徴が雑音・残響に頑健であり，機械による感情音声認識にも有効であることも示した．最後に課題④に取り組んだ．ここでは，VoiceMOSチャレンジに参画し，音声の変調スペクトログラムに現れる特徴が音声の質評価に重要であることを明らかにした．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2022年度は，計画どおり，前年度課題で検討した，音声の明瞭性と変調知覚の関係ならびに明瞭性と音声生成の関係に基づき，音声明瞭化といったエンリッチメントを検討した．また，音声の個人性と変調知覚の関係ならびに個人性と音声生成の関係を調査し，話者秘匿や音声プライバシーの保護といったエンリッチメントも検討した．さらに，音声の感情や質感に関しても変調知覚との関係性に着目し，重要な音響特徴を検討した．今年度もコロナ禍でドレスデン工科大を訪問して実施できない課題もあるが，他の課題（緊迫感）についても先取りして検討に取りかかった．
Strategy for Future Research Activity	今年度もコロナ禍のため協働研究先であるドレスデン工科大を訪問して研究することができなかった．そのため，メールやオンラインミーティングを活用するなど，訪問できなくても協働研究を進められるところから手をつけた．次年度もコロナ禍の影響から，今後いつ頃に共同研究先であるドレスデン工科大を訪問できるか不明であるため，オンラインミーティングを活用して研究を継続していく．
Causes of Carryover	コロナ禍により計画通りに一部執行できなかったため．繰り越し分については，当初計画案に沿って対応する予定である．

Research Products
(32 results)

All 2023 2022

All Journal Article (6 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 6 results, Open Access: 5 results) Presentation (26 results) (of which Int'l Joint Research: 13 results)

[Journal Article] Method of estimating three-dimensional direction-of-arrival based on monaural modulation spectrum2023
- Author(s)
  Wang Rui、Bui Nguyen Khanh、Morikawa Daisuke、Unoki Masashi
- Journal Title
  
  Applied Acoustics
  
  Volume: 203 Pages: 109215～109215
- DOI
  10.1016/j.apacoust.2023.109215
- Peer Reviewed / Open Access
[Journal Article] Contribution of Common Modulation Spectral Features to Vocal-Emotion Recognition of Noise-Vocoded Speech in Noisy Reverberant Environments2022
- Author(s)
  Guo Taiyang、Zhu Zhi、Kidani Shunsuke、Unoki Masashi
- Journal Title
  
  Applied Sciences
  
  Volume: 12 Pages: 9979～9979
- DOI
  10.3390/app12199979
- Peer Reviewed / Open Access
[Journal Article] Detection of Brain Network Communities During Natural Speech Comprehension From Functionally Aligned EEG Sources2022
- Author(s)
  Zhou Di、Zhang Gaoyan、Dang Jianwu、Unoki Masashi、Liu Xin
- Journal Title
  
  Frontiers in Computational Neuroscience
  
  Volume: 16 Pages: －
- DOI
  10.3389/fncom.2022.919215
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Speaker anonymization by modifying fundamental frequency and x-vector singular value2022
- Author(s)
  Mawalim Candy Olivia、Galajit Kasorn、Karnjana Jessada、Kidani Shunsuke、Unoki Masashi
- Journal Title
  
  Computer Speech and Language
  
  Volume: 73 Pages: 101326～101326
- DOI
  10.1016/j.csl.2021.101326
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Relationship Between Speakers' Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network2022
- Author(s)
  Li Kai、Lu Xugang、Akagi Masato、Dang Jianwu、Li Sheng、Unoki Masashi
- Journal Title
  
  Proc. EUSIPCO2022
  
  Volume: ー Pages: 379～383
- DOI
  10.23919/EUSIPCO55093.2022.9909649
- Peer Reviewed / Open Access
[Journal Article] Bone-conducted Speech Enhancement Using Vector-quantized Variational Autoencoder and Gammachirp Filterbank Cepstral Coefficients2022
- Author(s)
  Nguyen Quoc-Huy、Unoki Masashi
- Journal Title
  
  Proc. EUSIPCO2022
  
  Volume: ー Pages: 21～25
- DOI
  10.23919/EUSIPCO55093.2022.9909731
- Peer Reviewed
[Presentation] 骨導提示音による気導提示音の抑圧効果2023
- Author(s)
  井上隼輔, 鳥谷輝樹, 上江洲安史, 鵜木祐史
- Organizer
  日本音響学会2023年度春季研究発表会
[Presentation] 選択的聴取能力と耳音響放射特性の関係性の検討2023
- Author(s)
  宮家一真, 木谷俊介, 鵜木祐史
- Organizer
  日本音響学会2023年度春季研究発表会
[Presentation] 残響音声からの変調伝達関数・音声伝送指標・室内音響パラメータのブラインド推定法2023
- Author(s)
  鵜木祐史
- Organizer
  日本音響学会音声研究会
[Presentation] 音声に含まれる緊迫感の変調周波数帯域の検討2023
- Author(s)
  木谷俊介，劉小テイ，郭太陽，磯山拓都，李軍鋒，赤木正人，鵜木祐史
- Organizer
  日本音響学会音声研究会
[Presentation] Reconstruction of speech spectrogram based on non-invasive EEG signal2022
- Author(s)
  Di Zhou, Masashi Unoki, Gaoyan Zhang, Jianwu Dang
- Organizer
  ISCSLP2022
- Int'l Joint Research
[Presentation] Vector-quantized Variational Autoencoder for Phase-aware Speech Enhancement2022
- Author(s)
  Tuan Vu Ho, Quoc Huy Nguyen, Masato Akagi, Masashi Unoki
- Organizer
  Interspeech2022
- Int'l Joint Research
[Presentation] Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection2022
- Author(s)
  Kai Li, Sheng Li, Xugang Lu, Masato Akagi, Meng Liu, Lin Zhang, Chang Zeng, Longbiao Wang, Jianwu Dang, Masashi Unoki
- Organizer
  Interspeech2022
- Int'l Joint Research
[Presentation] Automatic Mean Opinion Score Estimation with Temporal Modulation Features on Gammatone Filterbank for Speech Assessment2022
- Author(s)
  Quoc-Huy Nguyen, Kai Li, Masashi Unoki
- Organizer
  Interspeech2022
- Int'l Joint Research
[Presentation] Deep Hashing for Speaker Identification and Retrieval Based on Auditory Sparse Representation2022
- Author(s)
  Dung Kim Tran, Masato Akagi, and Masashi Unoki
- Organizer
  APSIPA2022
- Int'l Joint Research
[Presentation] Analysis of Amplitude and Frequency Perturbation in the Voice for Fake Audio Detection2022
- Author(s)
  Kai Li, Yao Wang, Minh Le Nguyen, Masato Akagi and Masashi Unoki
- Organizer
  APSIPA2022
- Int'l Joint Research
[Presentation] F0 Modification via PV-TSM Algorithm for Speaker Anonymization Across Gender2022
- Author(s)
  Candy Olivia Mawalim, Shogo Okada, and Masashi Unoki
- Organizer
  APSIPA2022
- Int'l Joint Research
[Presentation] Contribution of Timbre and Shimmer Features to Deepfake Speech Detection2022
- Author(s)
  Anuwat Chaiwongyen, Norranat Songsriboonsit, Suradej Duangpummet, Jessada Karnjana, Waree Kongprawechnon, and Masashi Unoki
- Organizer
  APSIPA2022
- Int'l Joint Research
[Presentation] Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Using Temporal Modulation Features on Gammatone Auditory Filterbank2022
- Author(s)
  Kai Li, Quoc-Huy Nguyen, Yasuji Ota, and Masashi Unoki
- Organizer
  DCASE2022
- Int'l Joint Research
[Presentation] Study on the modulation frequency range that contributes to the perception of urgency2022
- Author(s)
  Shunsuke Kidani, Xiaoting Liu, Taiyang Guo, Takuto Isoyama, Junfeng Li, Masashi Unoki
- Organizer
  International Congress of Acoustics 2022 (ICA2022)
- Int'l Joint Research
[Presentation] Anomalous sound detection using objective metrics related to timbral attributes2022
- Author(s)
  Yasuji Ota, Seigo Kura, Masashi Unoki
- Organizer
  International Congress of Acoustics 2022 (ICA2022)
- Int'l Joint Research
[Presentation] Subjective evaluation regarding mixing ratio of bone-conducted to air-conducted speech for own-voice perception2022
- Author(s)
  Teruki Toya, Peter Birkholz, and Masashi Unoki
- Organizer
  International Congress of Acoustics 2022 (ICA2022)
- Int'l Joint Research
[Presentation] 聴覚フィルタバンクを用いたラフネスモデルの構築2022
- Author(s)
  磯山拓都, 木谷俊介, 鵜木祐史
- Organizer
  日本音響学会2022年度秋季研究発表会
[Presentation] 緊迫感知覚に寄与する変調周波数帯域の検討2022
- Author(s)
  木谷俊介, 劉小テイ, 郭太陽, 磯山拓都, 李軍鋒, 赤木正人, 鵜木祐史
- Organizer
  日本音響学会2022年度秋季研究発表会
[Presentation] 音色属性の客観評価指標を活用した異常音検知の検討2022
- Author(s)
  大田恭士, 倉誠吾, 鵜木祐史
- Organizer
  日本音響学会2022年度秋季研究発表会
[Presentation] 自己聴取音における音色と音高の印象に関する調査2022
- Author(s)
  森田翔太, 鳥谷輝樹, 鵜木祐史
- Organizer
  日本音響学会2022年度秋季研究発表会
[Presentation] Study on Bone-conducted Speech Enhancement Using Vector-quantized Variational Autoencoder and Gammachirp Filterbank Cepstral Coefficients2022
- Author(s)
  Quoc-Huy Nguyen, Masashi Unoki
- Organizer
  電子情報通信学会信号処理研究会
[Presentation] Study on Relationship Between Speakers’ Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-WiseAttentional Neural Network2022
- Author(s)
  Kai Li, Xugang Lu, Masato Akagi, Jianwu Dang, Sheng Li, and Masashi Unoki
- Organizer
  電子情報通信学会信号処理研究会
[Presentation] 聴覚的顕著性の予測のためのSpectro-Temporal Modulation 分析の検討2022
- Author(s)
  田中聡一郎, 堀口遼太郎, 木谷俊介, 鵜木祐史
- Organizer
  電子情報通信学会信号処理研究会
[Presentation] Dialogue scenario classification based on social factors2022
- Author(s)
  Yuning Liu, Di Zhou, Masashi Unoki, Jianwu Dang, Aijun Li
- Organizer
  ISCSLP2022
- Int'l Joint Research
[Presentation] Spectro-Temporal Modulationによる音声感情認識の調査2022
- Author(s)
  村上正悟，森田翔太
- Organizer
  電子情報通信学会　情報・システムソサイエティ特別企画　ジュニア＆学生ポスターセッション
[Presentation] 音色の客観指標と信号分析を組合せた異常音検知の一検討2022
- Author(s)
  大田恭士，鵜木祐史
- Organizer
  第37回信号処理シンポジウム

2022 Fiscal Year Research-status Report

VOICE 2.0: towards augmentation of enriched speech communication

Principal Investigator

鵜木 祐史 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Method of estimating three-dimensional direction-of-arrival based on monaural modulation spectrum2023

Author(s)

Journal Title

DOI

[Journal Article] Contribution of Common Modulation Spectral Features to Vocal-Emotion Recognition of Noise-Vocoded Speech in Noisy Reverberant Environments2022

Author(s)

Journal Title

DOI

[Journal Article] Detection of Brain Network Communities During Natural Speech Comprehension From Functionally Aligned EEG Sources2022

Author(s)

Journal Title

DOI

[Journal Article] Speaker anonymization by modifying fundamental frequency and x-vector singular value2022

Author(s)

Journal Title

DOI

[Journal Article] Relationship Between Speakers' Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network2022

Author(s)

Journal Title

DOI

[Journal Article] Bone-conducted Speech Enhancement Using Vector-quantized Variational Autoencoder and Gammachirp Filterbank Cepstral Coefficients2022

Author(s)

Journal Title

DOI

[Presentation] 骨導提示音による気導提示音の抑圧効果2023

Author(s)

Organizer

[Presentation] 選択的聴取能力と耳音響放射特性の関係性の検討2023

Author(s)

Organizer

[Presentation] 残響音声からの変調伝達関数・音声伝送指標・室内音響パラメータのブラインド推定法2023

Author(s)

Organizer

[Presentation] 音声に含まれる緊迫感の変調周波数帯域の検討2023

Author(s)

Organizer

[Presentation] Reconstruction of speech spectrogram based on non-invasive EEG signal2022

Author(s)

Organizer

[Presentation] Vector-quantized Variational Autoencoder for Phase-aware Speech Enhancement2022

Author(s)

Organizer

[Presentation] Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection2022

Author(s)

Organizer

[Presentation] Automatic Mean Opinion Score Estimation with Temporal Modulation Features on Gammatone Filterbank for Speech Assessment2022

Author(s)

Organizer

[Presentation] Deep Hashing for Speaker Identification and Retrieval Based on Auditory Sparse Representation2022

Author(s)

Organizer

[Presentation] Analysis of Amplitude and Frequency Perturbation in the Voice for Fake Audio Detection2022

Author(s)

Organizer

[Presentation] F0 Modification via PV-TSM Algorithm for Speaker Anonymization Across Gender2022

Author(s)

Organizer

[Presentation] Contribution of Timbre and Shimmer Features to Deepfake Speech Detection2022

Author(s)

Organizer

[Presentation] Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Using Temporal Modulation Features on Gammatone Auditory Filterbank2022

Author(s)

Organizer

[Presentation] Study on the modulation frequency range that contributes to the perception of urgency2022

Author(s)

Organizer

[Presentation] Anomalous sound detection using objective metrics related to timbral attributes2022

Author(s)

Organizer

[Presentation] Subjective evaluation regarding mixing ratio of bone-conducted to air-conducted speech for own-voice perception2022

Author(s)

Organizer

[Presentation] 聴覚フィルタバンクを用いたラフネスモデルの構築2022

鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)