• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

VOICE 2.0: towards augmentation of enriched speech communication

Research Project

Project/Area Number 20KK0233
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

鵜木 祐史  北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)

Co-Investigator(Kenkyū-buntansha) 赤木 正人  北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571) [Withdrawn]
木谷 俊介  北陸先端科学技術大学院大学, 先端科学技術研究科, 講師 (70635367)
森田 翔太  福山大学, 工学部, 講師 (70780378)
Project Period (FY) 2020-10-27 – 2025-03-31
Keywords音声コミュニケーション / エンリッチメント / 非言語情報知覚 / 音声了解度 / voice 2.0
Outline of Annual Research Achievements

本課題では,表現豊かな音声コミュニケーションを実現するために,音声の数理工学的な情報表現において,音声のエンリッチな情報を言語・非言語・パラ言語情報にそれぞれ分離し,それらを個別に制御することで,次の5点に関する音声エンリッチメント(VOICE 2.0)を実現する.課題① 言語情報におけるエンリッチメント,課題② 非言語情報(話者性)のエンリッチメント,課題③ 非言語情報(感情)のエンリッチメント,課題④ 非言語情報(声の質感)のエンリッチメント,課題⑤ パラ言語情報(緊迫感など)のエンリッチメント.本研究の期待するところは,音声の明瞭さや,感情,個人性,発話スタイルの変化といった声質をヒトのように高低・強弱の程度を制御して,音声コミュニケーションの付加価値を高めることにある.
2023年度は,前年度課題で検討した課題③~課題⑤について継続して実施した.まず課題③では,感情知覚と変調スペクトルに含まれる変調成分の関係を調査した.その結果,振幅包絡線に含まれる変調成分(0~16 Hz)が感情知覚に重要であることを明らかにした.さらに,この中に含まれる瞬時変調周波数の時間変化の傾きが感情知覚に関わることも明らかにした.次に課題④では,声の質感と音色属性に関わる特徴(音質評価指標)(シャープネス,ラフネス,変動強度)ならびに基本周波数成分の時間特徴(ジッターとシマー)の関係を検討した.その結果,音質評価指標ならびにジッター・シマーが声の自然さの評価に使えることがわかった.最後に課題⑤では,緊迫感知覚と変調スペクトルに含まれる変調成分の関係を調査した.その結果,課題③と同様に音声の振幅包絡線に含まれる瞬時変調周波数成分の時間変化の傾きを調整することで緊迫感を低下できることが可能であることがわかった.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2023年度は,計画どおり,前年度課題で検討した,音声の非言語・パラ言語情報と変調知覚の関係を調査した.その結果,前述したように,瞬時変調周波数の時間変化を操作することが非言語・パラ言語情報のエンリッチメントに直結していることを明らかにした.このことから,瞬時変調周波数の時間変化を操作することで,非言語・パラ言語情報をエンリッチできることが容易に予想できる.次年度には,感情知覚や緊迫感知覚の向上を目指した最終検討に入ることができる.以上から区分(2)の進捗状況であると判断した.

Strategy for Future Research Activity

コロナ禍が明けてから,はじめて研究代表者のみドレスデン工科大学を訪問することができた.この3年間の互いの研究機関での研究進捗について,対面で報告し,今後の研究展開についても議論した.研究自体には,大きな進展があったことから,今後はオンラインの利用も含め,研究交流を一層深めていく予定である.研究分担者による長期滞在は,現在もなお難しいところではあるが,最終年度は,研究分担者も含め,全員でドレスデン工科大を訪問し,深く議論をして研究ゴールに到着できるようにしていきたい.

Causes of Carryover

コロナ禍が明けたものの,計画通りに一部執行できなかったため.
繰り越し分については,当初計画案に沿って対応する予定であり,ドレスデン工科大への旅費に利用する.

  • Research Products

    (34 results)

All 2024 2023

All Journal Article (15 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 15 results,  Open Access: 5 results) Presentation (19 results) (of which Int'l Joint Research: 10 results)

  • [Journal Article] Computational models of auditory sensation important for sound quality on basis of either gammatone or gammachirp auditory filterbank2024

    • Author(s)
      Isoyama Takuto、Kidani Shunsuke、Unoki Masashi
    • Journal Title

      Applied Acoustics

      Volume: 218 Pages: 109914~109914

    • DOI

      10.1016/j.apacoust.2024.109914

    • Peer Reviewed / Open Access
  • [Journal Article] Linear Model Approach to Investigate the Comprehensive Entrainment in Conversation2024

    • Author(s)
      Yuning Liu, Masashi Unoki
    • Journal Title

      Proc. NCSP24

      Volume: - Pages: 51-54

    • Peer Reviewed
  • [Journal Article] Phase-Aware Speech Enhancement With Complex Wiener Filter2023

    • Author(s)
      Nguyen Huy、Ho Tuan Vu、Akagi Masato、Unoki Masashi
    • Journal Title

      IEEE Access

      Volume: 11 Pages: 141573~141584

    • DOI

      10.1109/ACCESS.2023.3341919

    • Peer Reviewed / Open Access
  • [Journal Article] Contributions of Jitter and Shimmer in the Voice for Fake Audio Detection2023

    • Author(s)
      Li Kai、Lu Xugang、Akagi Masato、Unoki Masashi
    • Journal Title

      IEEE Access

      Volume: 11 Pages: 84689~84698

    • DOI

      10.1109/ACCESS.2023.3301616

    • Peer Reviewed / Open Access
  • [Journal Article] Anomalous Sound Detection for Industrial Machines Using Acoustical Features Related to Timbral Metrics2023

    • Author(s)
      Ota Yasuji、Unoki Masashi
    • Journal Title

      IEEE Access

      Volume: 11 Pages: 70884~70897

    • DOI

      10.1109/ACCESS.2023.3294334

    • Peer Reviewed / Open Access
  • [Journal Article] Contributions of Temporal Modulation Cues in Temporal Amplitude Envelope of Speech to Urgency Perception2023

    • Author(s)
      Unoki Masashi、Kawamura Miho、Kobayashi Maori、Kidani Shunsuke、Li Junfeng、Akagi Masato
    • Journal Title

      Applied Sciences

      Volume: 13 Pages: 6239~6239

    • DOI

      10.3390/app13106239

    • Peer Reviewed / Open Access
  • [Journal Article] Analysis of Spectro-Temporal Modulation Representation for Deep-Fake Speech Detection2023

    • Author(s)
      Cheng Haowei、Mawalim Candy Olivia、Li Kai、Wang Lijun、Unoki Masashi
    • Journal Title

      Proc. APSIPA2023

      Volume: - Pages: 1822-1829

    • DOI

      10.1109/APSIPAASC58517.2023.10317309

    • Peer Reviewed
  • [Journal Article] Deepfake-speech Detection with Pathological Features and Multilayer Perceptron Neural Network2023

    • Author(s)
      Chaiwongyen Anuwat、Duangpummet Suradej、Karnjana Jessada、Kongprawechnon Waree、Unoki Masashi
    • Journal Title

      Proc. APSIPA2023

      Volume: - Pages: 2182-2188

    • DOI

      10.1109/APSIPAASC58517.2023.10317331

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Contribution of modulation spectral features for cross-lingual speech emotion recognition under noisy reverberant conditions2023

    • Author(s)
      Guo Taiyang、Li Sixia、Kidani Shunsuke、Okada Shogo、Unoki Masashi
    • Journal Title

      Proc. APSIPA2023

      Volume: - Pages: 2221-2227

    • DOI

      10.1109/APSIPAASC58517.2023.10317449

    • Peer Reviewed
  • [Journal Article] Data-driven Non-uniform Filterbanks Based on F-ratio for Machine Anomalous Sound Detection2023

    • Author(s)
      Li Kai、Tran Dung Kim、Lu Xugang、Akagi Masato、Unoki Masashi
    • Journal Title

      Proc. EUSIPCO2023

      Volume: - Pages: 201-205

    • DOI

      10.23919/EUSIPCO58844.2023.10289922

    • Peer Reviewed
  • [Journal Article] Computational model for predicting sound quality metrics using loudness model based on gammatone/gammachirp auditory filterbank and its applications2023

    • Author(s)
      Isoyama Takuto、Kidani Shunsuke、Unoki Masashi
    • Journal Title

      Proc. INTER-NOISE2023

      Volume: 268 Pages: 5955~5964

    • DOI

      10.3397/in_2023_0861

    • Peer Reviewed
  • [Journal Article] Study on suppression effect of air-conducted sound by bone-conducted sound2023

    • Author(s)
      Inoue Shunsuke、Toya Teruki、Uezu Yasufumi、Unoki Masashi
    • Journal Title

      Proc. INTER-NOISE

      Volume: 268 Pages: 5479~5489

    • DOI

      10.3397/IN_2023_0778

    • Peer Reviewed
  • [Journal Article] Consonant-emphasis Method Incorporating Robust Consonant-section Detection to Improve Intelligibility of Bone-conducted speech2023

    • Author(s)
      Uezu Yasufumi、Wang Sicheng、Toya Teruki、Unoki Masashi
    • Journal Title

      Proc. Interspeech2023

      Volume: - Pages: 849-853

    • DOI

      10.21437/Interspeech.2023-2568

    • Peer Reviewed
  • [Journal Article] Vowel production changes under noise with consideration of low-order formant masking2023

    • Author(s)
      Yasufumi Uezu, Masato Akagi, Masashi Unoki
    • Journal Title

      Proc. 20th International Congress of Phonetic Sciences

      Volume: - Pages: 673-677

    • Peer Reviewed
  • [Journal Article] An Improved Optimal Transport Kernel Embedding Method with Gating Mechanism for Singing Voice Separation and Speaker Identification2023

    • Author(s)
      Yuan Weitao、Bian Yuren、Wang Shengbei、Unoki Masashi、Wang Wenwu
    • Journal Title

      Proc. ICASSP2023

      Volume: - Pages: 849-853

    • DOI

      10.1109/ICASSP49357.2023.10096651

    • Peer Reviewed
  • [Presentation] Contributions of Instantaneous Modulation Components in Temporal Amplitude Envelope to Vocal Emotion Perception2024

    • Author(s)
      Taiyang Guo, Takuto Isoyama, Shunsuke Kidani, Masashi Unoki
    • Organizer
      日本音響学会2024年度春季研究発表会(拓殖大学)
  • [Presentation] Conversation Scenario Classification Based on Conversation Entrainment2024

    • Author(s)
      Yuning Liu, Di Zhou, Jianwu Dang, Aijun Li, Masashi Unoki
    • Organizer
      日本音響学会2024年度春季研究発表会(拓殖大学)
  • [Presentation] Leveraging Equalization-Cancellation Model in Speech Intelligibility Prediction for Hearing Aids2024

    • Author(s)
      Xiajie Zhou, Candy Olivia Mawalim, Masashi Unoki
    • Organizer
      日本音響学会2024年度春季研究発表会(拓殖大学)
  • [Presentation] Linear Model Approach to Investigate the Comprehensive Entrainment in Conversation2024

    • Author(s)
      Yuning Liu, Masashi Unoki
    • Organizer
      2024 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (Hawaii)
    • Int'l Joint Research
  • [Presentation] 聴覚フィルタバンクを用いた時変動音のラウドネス計算法の構築2023

    • Author(s)
      磯山拓都, 木谷俊介, 鵜木祐史
    • Organizer
      日本音響学会2023年度秋季研究発表会(名古屋工業大学)
  • [Presentation] 産業機器の異常音検知に向けた音色関連特徴量の検討2023

    • Author(s)
      大田恭士, 鵜木祐史
    • Organizer
      日本音響学会2023年度秋季研究発表会(名古屋工業大学)
  • [Presentation] 音色に関連づけた信号処理手法による異常音検知の一検討2023

    • Author(s)
      大田 恭士, 鵜木 祐史
    • Organizer
      第38回信号処理シンポジウム(京都テルサ)
  • [Presentation] 謡曲の良さに寄与するスペクトル・時間変調情報の検討2023

    • Author(s)
      木谷俊介,磯山拓人,鵜木祐史
    • Organizer
      日本音響学会2023年度秋季研究発表会(名古屋工業大学)
  • [Presentation] Emotion Prediction based on Conversation Entrainments2023

    • Author(s)
      Liu Yuning, Unoki Masashi
    • Organizer
      2023年度電気・情報関係学会北陸支部連合大会(金沢工大,オンライン)
  • [Presentation] 聴覚フィルタバンクを用いた時変動音のラウドネス計算法の検討2023

    • Author(s)
      磯山拓都, 木谷俊介, 鵜木祐史
    • Organizer
      日本音響学会聴覚研究会(東北学院大学)
  • [Presentation] Study on suppression effect of air-conducted sound by bone-conducted sound2023

    • Author(s)
      Inoue Shunsuke、Toya Teruki、Uezu Yasufumi、Unoki Masashi
    • Organizer
      InterNoise2023 (Makuhari)
    • Int'l Joint Research
  • [Presentation] Computational model for predicting sound quality metrics using loudness model based on gammatone/gammachirp auditory filterbank and its applications2023

    • Author(s)
      Isoyama Takuto、Kidani Shunsuke、Unoki Masashi
    • Organizer
      InterNoise2023 (Makuhari)
    • Int'l Joint Research
  • [Presentation] Vowel production changes under noise with consideration of low-order formant masking2023

    • Author(s)
      Yasufumi Uezu, Masato Akagi, Masashi Unoki
    • Organizer
      20th International Congress of Phonetic Sciences
    • Int'l Joint Research
  • [Presentation] Consonant-emphasis Method Incorporating Robust Consonant-section Detection to Improve Intelligibility of Bone-conducted speech2023

    • Author(s)
      Uezu Yasufumi、Wang Sicheng、Toya Teruki、Unoki Masashi
    • Organizer
      24th INTERSPEECH Conference
    • Int'l Joint Research
  • [Presentation] An Improved Optimal Transport Kernel Embedding Method with Gating Mechanism for Singing Voice Separation and Speaker Identification2023

    • Author(s)
      Yuan Weitao、Bian Yuren、Wang Shengbei、Unoki Masashi、Wang Wenwu
    • Organizer
      2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (Greek island of Rhodes)
    • Int'l Joint Research
  • [Presentation] Analysis of Spectro-Temporal Modulation Representation for Deep-Fake Speech Detection2023

    • Author(s)
      Cheng Haowei、Mawalim Candy Olivia、Li Kai、Wang Lijun、Unoki Masashi
    • Organizer
      15th annual conference organized by Asia-Pacific Signal and Information Processing Association (Taipei)
    • Int'l Joint Research
  • [Presentation] Deepfake-speech Detection with Pathological Features and Multilayer Perceptron Neural Network2023

    • Author(s)
      Chaiwongyen Anuwat、Duangpummet Suradej、Karnjana Jessada、Kongprawechnon Waree、Unoki Masashi
    • Organizer
      15th annual conference organized by Asia-Pacific Signal and Information Processing Association (Taipei)
    • Int'l Joint Research
  • [Presentation] Contribution of modulation spectral features for cross-lingual speech emotion recognition under noisy reverberant conditions2023

    • Author(s)
      Guo Taiyang、Li Sixia、Kidani Shunsuke、Okada Shogo、Unoki Masashi
    • Organizer
      15th annual conference organized by Asia-Pacific Signal and Information Processing Association (Taipei)
    • Int'l Joint Research
  • [Presentation] Data-driven Non-uniform Filterbanks Based on F-ratio for Machine Anomalous Sound Detection2023

    • Author(s)
      Li Kai、Tran Dung Kim、Lu Xugang、Akagi Masato、Unoki Masashi
    • Organizer
      31st European Signal Processing Conference (Helsinki, Finland)
    • Int'l Joint Research

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi