• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

VOICE 2.0: towards augmentation of enriched speech communication

Research Project

Project/Area Number 20KK0233
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

鵜木 祐史  北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)

Co-Investigator(Kenkyū-buntansha) 赤木 正人  北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
木谷 俊介  北陸先端科学技術大学院大学, 先端科学技術研究科, 講師 (70635367)
森田 翔太  福山大学, 工学部, 講師 (70780378)
Project Period (FY) 2020-10-27 – 2025-03-31
Keywords音声コミュニケーション / エンリッチメント / 非言語情報 / 聴覚エンリッチメント / voice 2.0 / 音声了解度
Outline of Annual Research Achievements

本研究では,表現豊かな音声コミュニケーションを実現するために,音声の数理工学的な情報表現において,音声のエンリッチな情報を言語・非言語・パラ言語情報にそれぞれ分離し,それらを個別に制御することで,次の5点に関する音声エンリッチメント(VOICE 2.0)を実現する.課題① 言語情報におけるエンリッチメント,課題② 非言語情報(話者性)のエンリッチメント,課題③ 非言語情報(感情)のエンリッチメント,課題④ 非言語情報(声の質感)のエンリッチメント,課題⑤ パラ言語情報(緊迫感など)のエンリッチメント.本研究の期待するところは,音声の明瞭さや,感情,個人性,発話スタイルの変化といった声質をヒトのように高低・強弱の程度を制御して,音声コミュニケーションの付加価値を高めることにある.
2022年度は,前年度課題で検討した課題②について継続して実施した.この課題では,音声の個人性と変調知覚の関係ならびに個人性と音声生成の関係を調査し,話者変換といったエンリッチメントを検討した.ここでは,話者の個人性情報を,McAdams係数を利用して制御することで話者秘匿化やプライバシー保護ができるか検討した.その結果,高い精度で秘匿可能であることを示した.次に課題③に取り組んだ.ここでは,音声の感情と変調知覚の関係を調査した.これまでに変調スペクトログラムの高次統計量を利用して感情知覚の関係を調べてきたが,すべての感情制御に共通する特徴(変調スペクトル尖度と変調スペクトル傾斜)があることを明らかにした.また,これらの特徴が雑音・残響に頑健であり,機械による感情音声認識にも有効であることも示した.最後に課題④に取り組んだ.ここでは,VoiceMOSチャレンジに参画し,音声の変調スペクトログラムに現れる特徴が音声の質評価に重要であることを明らかにした.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2022年度は,計画どおり,前年度課題で検討した,音声の明瞭性と変調知覚の関係ならびに明瞭性と音声生成の関係に基づき,音声明瞭化といったエンリッチメントを検討した.また,音声の個人性と変調知覚の関係ならびに個人性と音声生成の関係を調査し,話者秘匿や音声プライバシーの保護といったエンリッチメントも検討した.さらに,音声の感情や質感に関しても変調知覚との関係性に着目し,重要な音響特徴を検討した.今年度もコロナ禍でドレスデン工科大を訪問して実施できない課題もあるが,他の課題(緊迫感)についても先取りして検討に取りかかった.

Strategy for Future Research Activity

今年度もコロナ禍のため協働研究先であるドレスデン工科大を訪問して研究することができなかった.そのため,メールやオンラインミーティングを活用するなど,訪問できなくても協働研究を進められるところから手をつけた.次年度もコロナ禍の影響から,今後いつ頃に共同研究先であるドレスデン工科大を訪問できるか不明であるため,オンラインミーティングを活用して研究を継続していく.

Causes of Carryover

コロナ禍により計画通りに一部執行できなかったため.
繰り越し分については,当初計画案に沿って対応する予定である.

  • Research Products

    (32 results)

All 2023 2022

All Journal Article (6 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 6 results,  Open Access: 5 results) Presentation (26 results) (of which Int'l Joint Research: 13 results)

  • [Journal Article] Method of estimating three-dimensional direction-of-arrival based on monaural modulation spectrum2023

    • Author(s)
      Wang Rui、Bui Nguyen Khanh、Morikawa Daisuke、Unoki Masashi
    • Journal Title

      Applied Acoustics

      Volume: 203 Pages: 109215~109215

    • DOI

      10.1016/j.apacoust.2023.109215

    • Peer Reviewed / Open Access
  • [Journal Article] Contribution of Common Modulation Spectral Features to Vocal-Emotion Recognition of Noise-Vocoded Speech in Noisy Reverberant Environments2022

    • Author(s)
      Guo Taiyang、Zhu Zhi、Kidani Shunsuke、Unoki Masashi
    • Journal Title

      Applied Sciences

      Volume: 12 Pages: 9979~9979

    • DOI

      10.3390/app12199979

    • Peer Reviewed / Open Access
  • [Journal Article] Detection of Brain Network Communities During Natural Speech Comprehension From Functionally Aligned EEG Sources2022

    • Author(s)
      Zhou Di、Zhang Gaoyan、Dang Jianwu、Unoki Masashi、Liu Xin
    • Journal Title

      Frontiers in Computational Neuroscience

      Volume: 16 Pages: -

    • DOI

      10.3389/fncom.2022.919215

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Speaker anonymization by modifying fundamental frequency and x-vector singular value2022

    • Author(s)
      Mawalim Candy Olivia、Galajit Kasorn、Karnjana Jessada、Kidani Shunsuke、Unoki Masashi
    • Journal Title

      Computer Speech and Language

      Volume: 73 Pages: 101326~101326

    • DOI

      10.1016/j.csl.2021.101326

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Relationship Between Speakers' Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network2022

    • Author(s)
      Li Kai、Lu Xugang、Akagi Masato、Dang Jianwu、Li Sheng、Unoki Masashi
    • Journal Title

      Proc. EUSIPCO2022

      Volume: ー Pages: 379~383

    • DOI

      10.23919/EUSIPCO55093.2022.9909649

    • Peer Reviewed / Open Access
  • [Journal Article] Bone-conducted Speech Enhancement Using Vector-quantized Variational Autoencoder and Gammachirp Filterbank Cepstral Coefficients2022

    • Author(s)
      Nguyen Quoc-Huy、Unoki Masashi
    • Journal Title

      Proc. EUSIPCO2022

      Volume: ー Pages: 21~25

    • DOI

      10.23919/EUSIPCO55093.2022.9909731

    • Peer Reviewed
  • [Presentation] 骨導提示音による気導提示音の抑圧効果2023

    • Author(s)
      井上隼輔, 鳥谷輝樹, 上江洲 安史, 鵜木祐史
    • Organizer
      日本音響学会2023年度春季研究発表会
  • [Presentation] 選択的聴取能力と耳音響放射特性の関係性の検討2023

    • Author(s)
      宮家一真, 木谷俊介, 鵜木祐史
    • Organizer
      日本音響学会2023年度春季研究発表会
  • [Presentation] 残響音声からの変調伝達関数・音声伝送指標・室内音響パラメータのブラインド推定法2023

    • Author(s)
      鵜木祐史
    • Organizer
      日本音響学会音声研究会
  • [Presentation] 音声に含まれる緊迫感の変調周波数帯域の検討2023

    • Author(s)
      木谷俊介,劉小テイ,郭太陽,磯山拓都,李軍鋒,赤木正人,鵜木祐史
    • Organizer
      日本音響学会音声研究会
  • [Presentation] Reconstruction of speech spectrogram based on non-invasive EEG signal2022

    • Author(s)
      Di Zhou, Masashi Unoki, Gaoyan Zhang, Jianwu Dang
    • Organizer
      ISCSLP2022
    • Int'l Joint Research
  • [Presentation] Vector-quantized Variational Autoencoder for Phase-aware Speech Enhancement2022

    • Author(s)
      Tuan Vu Ho, Quoc Huy Nguyen, Masato Akagi, Masashi Unoki
    • Organizer
      Interspeech2022
    • Int'l Joint Research
  • [Presentation] Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection2022

    • Author(s)
      Kai Li, Sheng Li, Xugang Lu, Masato Akagi, Meng Liu, Lin Zhang, Chang Zeng, Longbiao Wang, Jianwu Dang, Masashi Unoki
    • Organizer
      Interspeech2022
    • Int'l Joint Research
  • [Presentation] Automatic Mean Opinion Score Estimation with Temporal Modulation Features on Gammatone Filterbank for Speech Assessment2022

    • Author(s)
      Quoc-Huy Nguyen, Kai Li, Masashi Unoki
    • Organizer
      Interspeech2022
    • Int'l Joint Research
  • [Presentation] Deep Hashing for Speaker Identification and Retrieval Based on Auditory Sparse Representation2022

    • Author(s)
      Dung Kim Tran, Masato Akagi, and Masashi Unoki
    • Organizer
      APSIPA2022
    • Int'l Joint Research
  • [Presentation] Analysis of Amplitude and Frequency Perturbation in the Voice for Fake Audio Detection2022

    • Author(s)
      Kai Li, Yao Wang, Minh Le Nguyen, Masato Akagi and Masashi Unoki
    • Organizer
      APSIPA2022
    • Int'l Joint Research
  • [Presentation] F0 Modification via PV-TSM Algorithm for Speaker Anonymization Across Gender2022

    • Author(s)
      Candy Olivia Mawalim, Shogo Okada, and Masashi Unoki
    • Organizer
      APSIPA2022
    • Int'l Joint Research
  • [Presentation] Contribution of Timbre and Shimmer Features to Deepfake Speech Detection2022

    • Author(s)
      Anuwat Chaiwongyen, Norranat Songsriboonsit, Suradej Duangpummet, Jessada Karnjana, Waree Kongprawechnon, and Masashi Unoki
    • Organizer
      APSIPA2022
    • Int'l Joint Research
  • [Presentation] Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Using Temporal Modulation Features on Gammatone Auditory Filterbank2022

    • Author(s)
      Kai Li, Quoc-Huy Nguyen, Yasuji Ota, and Masashi Unoki
    • Organizer
      DCASE2022
    • Int'l Joint Research
  • [Presentation] Study on the modulation frequency range that contributes to the perception of urgency2022

    • Author(s)
      Shunsuke Kidani, Xiaoting Liu, Taiyang Guo, Takuto Isoyama, Junfeng Li, Masashi Unoki
    • Organizer
      International Congress of Acoustics 2022 (ICA2022)
    • Int'l Joint Research
  • [Presentation] Anomalous sound detection using objective metrics related to timbral attributes2022

    • Author(s)
      Yasuji Ota, Seigo Kura, Masashi Unoki
    • Organizer
      International Congress of Acoustics 2022 (ICA2022)
    • Int'l Joint Research
  • [Presentation] Subjective evaluation regarding mixing ratio of bone-conducted to air-conducted speech for own-voice perception2022

    • Author(s)
      Teruki Toya, Peter Birkholz, and Masashi Unoki
    • Organizer
      International Congress of Acoustics 2022 (ICA2022)
    • Int'l Joint Research
  • [Presentation] 聴覚フィルタバンクを用いたラフネスモデルの構築2022

    • Author(s)
      磯山 拓都, 木谷 俊介, 鵜木 祐史
    • Organizer
      日本音響学会2022年度秋季研究発表会
  • [Presentation] 緊迫感知覚に寄与する変調周波数帯域の検討2022

    • Author(s)
      木谷 俊介, 劉 小テイ, 郭 太陽, 磯山 拓都, 李 軍鋒, 赤木 正人, 鵜木 祐史
    • Organizer
      日本音響学会2022年度秋季研究発表会
  • [Presentation] 音色属性の客観評価指標を活用した異常音検知の検討2022

    • Author(s)
      大田 恭士, 倉 誠吾, 鵜木 祐史
    • Organizer
      日本音響学会2022年度秋季研究発表会
  • [Presentation] 自己聴取音における音色と音高の印象に関する調査2022

    • Author(s)
      森田 翔太, 鳥谷 輝樹, 鵜木 祐史
    • Organizer
      日本音響学会2022年度秋季研究発表会
  • [Presentation] Study on Bone-conducted Speech Enhancement Using Vector-quantized Variational Autoencoder and Gammachirp Filterbank Cepstral Coefficients2022

    • Author(s)
      Quoc-Huy Nguyen, Masashi Unoki
    • Organizer
      電子情報通信学会信号処理研究会
  • [Presentation] Study on Relationship Between Speakers’ Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-WiseAttentional Neural Network2022

    • Author(s)
      Kai Li, Xugang Lu, Masato Akagi, Jianwu Dang, Sheng Li, and Masashi Unoki
    • Organizer
      電子情報通信学会信号処理研究会
  • [Presentation] 聴覚的顕著性の予測のためのSpectro-Temporal Modulation 分析の検討2022

    • Author(s)
      田中 聡一郎, 堀口 遼太郎, 木谷 俊介, 鵜木 祐史
    • Organizer
      電子情報通信学会信号処理研究会
  • [Presentation] Dialogue scenario classification based on social factors2022

    • Author(s)
      Yuning Liu, Di Zhou, Masashi Unoki, Jianwu Dang, Aijun Li
    • Organizer
      ISCSLP2022
    • Int'l Joint Research
  • [Presentation] Spectro-Temporal Modulationによる音声感情認識の調査2022

    • Author(s)
      村上正悟,森田翔太
    • Organizer
      電子情報通信学会 情報・システムソサイエティ特別企画 ジュニア&学生ポスターセッション
  • [Presentation] 音色の客観指標と信号分析を組合せた異常音検知の一検討2022

    • Author(s)
      大田恭士,鵜木祐史
    • Organizer
      第37回信号処理シンポジウム

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi