Development of speech enhancement methods for conveying emotions equivalent to face-to-face communication
Project/Area Number |
19K20618
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 90010:Design-related
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
Kishida Takuya 電気通信大学, 大学院情報理工学研究科, 研究員 (80827907)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2019: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 音声信号処理 / 機械学習 / 声質変換 / 感情音声変換 / 音声印象変換 / ボルツマンマシン / 拡散確率モデル / 音響特徴量生成 / エネルギーベースモデル / マルチモーダル / 話者・音韻相互作用 / 系列表現 / 感情音声 / 感情知覚 / 対面コミュニケーション / 視聴覚相互作用 / 音声強調 |
Outline of Research at the Start |
感情が様々な強度で表出した発話を撮影・録音し、心理実験によって感情知覚における視聴覚相互作用と音声符号化の影響を調べる。さらに心理実験の結果と音声の音響特徴量を合わせた多変量解析を行い、話者の感情知覚に結びつく音響特徴量を見出す。見出された音響特徴量を操作する音声信号処理によって、「感情が音声の音響的特徴とどのように結びつくのかを明らかにし、対面コミュニケーションと同等に感情を伝えるための音声の強調処理法を開発する」という目的を達する。
|
Outline of Final Research Achievements |
In the context of speech communication using communication technologies, accurately conveying paralinguistic information such as emotions, intentions, attitudes, and speaker identities becomes challenging due to the absence of visual and other relevant cues. In this study, we developed a neural network capable of modeling the relationship between paralinguistic information and acoustic features of speech. Our research focused on exploring techniques to convert and enhance speaker identities and emotions. By employing the Boltzmann machine and related models, we were able to propose several approaches. These include a method that enables speaker identity conversion between individuals not included in the model's training, a method that concurrently converts speaker identities and emotions, and a method that decomposes voice into factors, allowing for voice impression conversion through factor manipulation.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究で得られた実験結果は、ボルツマンマシンやその関連手法が音声の音響特徴量と非言語情報との関係を表現するのに有効であることを示している。また、画像生成分野で目覚ましい成功を挙げている拡散確率モデルを声質変換課題に適用することに関する研究成果や調査結果は、音声コミュニケーションで声質変換技術をより柔軟に利用するための新たな手法の着想や知見につながった。
|
Report
(5 results)
Research Products
(31 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] Acoustic analysis of word-initial consonant clusters: a perceptual basis of English syllables2019
Author(s)
Zhang, Y., Nakajima, Y., Yu, X., Remijn, G. B., Ueda, K., Kishida, T., & Elliott M. A.
Organizer
The 35th Annual Meeting of the International Society for Psychophysics
Related Report
Int'l Joint Research
-