| Project/Area Number |
23K20017
|
| Research Category |
Grant-in-Aid for Research Activity Start-up
|
| Allocation Type | Multi-year Fund |
| Review Section |
1002:Human informatics, applied informatics and related fields
|
| Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
Hitoshi Suda 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60981438)
|
| Project Period (FY) |
2023-08-31 – 2025-03-31
|
| Project Status |
Completed (Fiscal Year 2024)
|
| Budget Amount *help |
¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
| Keywords | 音声合成 / 声質変換 / パラ言語情報 / 非言語情報 / 音声好感度 / 音声コーパス / 音声デザイン / 声質 / 好感度 / 話者認識 / テキスト音声合成 / 感情音声合成 / 声質制御 / 生成AI |
| Outline of Research at the Start |
音声合成システムを利用する際には,利用目的に応じた声質(話者らしさ)の選択が重要である.しかし従来手法では,声質は実在の話者に制約され,これを自在に制御することは難しい.本研究では,所望の声質でのテキスト音声合成を実現するため,プロンプト(声質を表現するテキスト)および視覚的インタフェースを通じて合成音声の声質を手軽に制御できる技術を開発する.構築した技術をWebインタフェースとして利用可能にし,合成音声の品質やユーザビリティなどの観点から本技術の有効性を多角的に評価する.
|
| Outline of Final Research Achievements |
This study focused on subjective speech impression of voice quality. In particular, we investigated "speech likability" as a subjective metric of speech, and achieved the following: 1) assigning subjective likability ratings to diverse speech samples by multiple evaluators, 2) analyzing the relationship between acoustic features and likability, 3) developing a prediction model for speech likability, and 4) constructing a likability control model. The prediction model accurately estimated likability scores with high correlation to subjective scores, and the control model demonstrated its effectiveness both subjectively and objectively. In addition, we constructed and released a corpus with likability scores for various speech samples, as well as a corpus suitable for analyzing the voice quality of singing voices.
|
| Academic Significance and Societal Importance of the Research Achievements |
本研究は、おもに人文学分野で研究がなされていた音声の好感度に関して、音声工学的なアプローチにもとづき、その予測・制御モデルを構築したものである。近年、インターネット広告や公共機関でのアナウンスなど様々な領域で合成音声が用いられているが、用途に応じて音声デザインをする際には「聴取者に適した音声デザイン」を要する。本研究の成果によって、聴取者を考慮できるよう既存の音声合成システムを拡張でき、ターゲティングが効率的に行える柔軟な音声合成システムが可能になる。さらに、本研究では声質に関してアノテーションを与えたコーパスを複数構築・公開しており、声質にまつわる幅広い音声情報処理研究に適用可能である。
|