• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Development of Speech Synthesis System for Controlling Speaker Identity through Text Prompts and Visual Interfaces

Research Project

Project/Area Number 23K20017
Research Category

Grant-in-Aid for Research Activity Start-up

Allocation TypeMulti-year Fund
Review Section 1002:Human informatics, applied informatics and related fields
Research InstitutionNational Institute of Advanced Industrial Science and Technology

Principal Investigator

Hitoshi Suda  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60981438)

Project Period (FY) 2023-08-31 – 2025-03-31
Project Status Completed (Fiscal Year 2024)
Budget Amount *help
¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords音声合成 / 声質変換 / パラ言語情報 / 非言語情報 / 音声好感度 / 音声コーパス / 音声デザイン / 声質 / 好感度 / 話者認識 / テキスト音声合成 / 感情音声合成 / 声質制御 / 生成AI
Outline of Research at the Start

音声合成システムを利用する際には,利用目的に応じた声質(話者らしさ)の選択が重要である.しかし従来手法では,声質は実在の話者に制約され,これを自在に制御することは難しい.本研究では,所望の声質でのテキスト音声合成を実現するため,プロンプト(声質を表現するテキスト)および視覚的インタフェースを通じて合成音声の声質を手軽に制御できる技術を開発する.構築した技術をWebインタフェースとして利用可能にし,合成音声の品質やユーザビリティなどの観点から本技術の有効性を多角的に評価する.

Outline of Final Research Achievements

This study focused on subjective speech impression of voice quality. In particular, we investigated "speech likability" as a subjective metric of speech, and achieved the following: 1) assigning subjective likability ratings to diverse speech samples by multiple evaluators, 2) analyzing the relationship between acoustic features and likability, 3) developing a prediction model for speech likability, and 4) constructing a likability control model. The prediction model accurately estimated likability scores with high correlation to subjective scores, and the control model demonstrated its effectiveness both subjectively and objectively. In addition, we constructed and released a corpus with likability scores for various speech samples, as well as a corpus suitable for analyzing the voice quality of singing voices.

Academic Significance and Societal Importance of the Research Achievements

本研究は、おもに人文学分野で研究がなされていた音声の好感度に関して、音声工学的なアプローチにもとづき、その予測・制御モデルを構築したものである。近年、インターネット広告や公共機関でのアナウンスなど様々な領域で合成音声が用いられているが、用途に応じて音声デザインをする際には「聴取者に適した音声デザイン」を要する。本研究の成果によって、聴取者を考慮できるよう既存の音声合成システムを拡張でき、ターゲティングが効率的に行える柔軟な音声合成システムが可能になる。さらに、本研究では声質に関してアノテーションを与えたコーパスを複数構築・公開しており、声質にまつわる幅広い音声情報処理研究に適用可能である。

Report

(3 results)
  • 2024 Annual Research Report   Final Research Report ( PDF )
  • 2023 Research-status Report
  • Research Products

    (5 results)

All 2025 2024

All Presentation (5 results) (of which Invited: 1 results)

  • [Presentation] 好感度自動推定モデルを利用した任意話者音声の好感度を制御可能な声質変換2025

    • Author(s)
      須田仁志
    • Organizer
      第155回音声言語情報処理研究発表会
    • Related Report
      2024 Annual Research Report
  • [Presentation] アイドルグループ楽曲スタイルにもとづく音楽コーパス2025

    • Author(s)
      須田仁志
    • Organizer
      第142回音楽情報科学研究発表会
    • Related Report
      2024 Annual Research Report
  • [Presentation] FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス2024

    • Author(s)
      須田仁志
    • Organizer
      情報処理学会音楽情報科学研究会
    • Related Report
      2023 Research-status Report
  • [Presentation] グループアイドルソングに対する音楽情報処理2024

    • Author(s)
      須田仁志
    • Organizer
      情報処理学会第86回全国大会
    • Related Report
      2023 Research-status Report
    • Invited
  • [Presentation] 「キミは私の声、好きかな?」 大規模主観評価による声質好感度コーパスの構築とその分析2024

    • Author(s)
      須田仁志
    • Organizer
      音学シンポジウム 2024 (第140回音楽情報科学・第152回音声言語情報処理合同研究発表会)
    • Related Report
      2023 Research-status Report

URL: 

Published: 2023-09-11   Modified: 2026-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi