• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

プロンプトや視覚的インタフェースを通じて声質制御可能な音声合成技術の実現

研究課題

研究課題/領域番号 23K20017
研究種目

研究活動スタート支援

配分区分基金
審査区分 1002:人間情報学、応用情報学およびその関連分野
研究機関国立研究開発法人産業技術総合研究所

研究代表者

須田 仁志  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60981438)

研究期間 (年度) 2023-08-31 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
キーワード音声デザイン / 声質 / 好感度 / 音声合成 / 話者認識 / テキスト音声合成 / 感情音声合成 / 声質制御 / 生成AI
研究開始時の研究の概要

音声合成システムを利用する際には,利用目的に応じた声質(話者らしさ)の選択が重要である.しかし従来手法では,声質は実在の話者に制約され,これを自在に制御することは難しい.本研究では,所望の声質でのテキスト音声合成を実現するため,プロンプト(声質を表現するテキスト)および視覚的インタフェースを通じて合成音声の声質を手軽に制御できる技術を開発する.構築した技術をWebインタフェースとして利用可能にし,合成音声の品質やユーザビリティなどの観点から本技術の有効性を多角的に評価する.

研究実績の概要

本課題は、適切な音声デザインのため、声質の制御を可能にする音声合成システムを提案するものである。現在、YouTubeから収集した多様な声質の表現文と音声の対応コーパスであるCoco-Nutが提案・公開されている。本課題では、Coco-Nutを活用し、多様な音声に対して「好感度」の観点から分析を行った。本課題ではCoco-Nutに含まれる1800の音声に対して、885人の聴取者による好感度の評点を与えた。この評点を分析することで、基本周波数や話者表現などの音声から抽出可能な特徴量と、好感度の平均点や分散、好感度の性差に関係があることを明らかにした。これによって、どのような音声が好まれるかの推定や、男性に特に好まれる音声、若い女性に特に好まれる音声など、対象聴取者に応じた音声デザインが可能になる。したがって、幅広い声質の中から、より音声デザインに適した音声を抽出でき、声質の制御に大きな貢献をもたらす。また、男女間や異なる年齢間での評点の与え方の傾向についても明らかにし、最終的な声質制御システムの評価におけるバイアスの分析にも活用可能である。
また、声質に関連して、歌声から声質情報を抽出する研究を行った。特に上述のCoco-Nutのような短時間の音声から声質情報を抽出する場合、その声質情報の品質に疑問が生じる。本課題では、複数人が歌唱する楽曲から各歌唱者の声質情報を抽出し歌唱者を短時間で認識する、という挑戦的な問題に着目した。本課題ではこの問題に取り組むため、歌声に関するアノテーションを与えた歌声コーパスを構築した。さらに、本コーパスを用いて声質にもとづく認識を行った結果、既存の声質分析手法の問題点を明らかにした。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

大規模な評価実験を行い、機械学習に利用可能な好感度データを収集・構築済みである。また、これらのデータに対して分析を行い、音声から抽出される種々の特徴量との関連についても調査済みである。また、関連した歌声のデータも収集・構築済みである。声質の好感度の分析については2024年6月開催の音学シンポジウム 2024 (第140回音楽情報科学・第152回音声言語情報処理合同研究発表会)に投稿し、歌声の声質分析については2024年3月開催の情報処理学会音楽情報科学研究会で発表した。

今後の研究の推進方策

現在、好感度に関する大規模なデータの構築が完了した。これにもとづき、音声から抽出される特徴量(基本周波数、話者表現、自己教師あり学習モデルによる特徴量など)と、その好感度の関係性を、具体的に深層学習モデルによりモデル化する。これを利用することで、好感度が高いと感じられる音声や、特定の聴取者にターゲティングした音声のデザインを可能にする。このアプローチを活用し、効率的に声質を探索可能な声質制御・選択のインタフェースを実現する。また、テキスト音声合成にこの結果を適用し、実験的に評価する。

報告書

(1件)
  • 2023 実施状況報告書
  • 研究成果

    (3件)

すべて 2024

すべて 学会発表 (3件) (うち招待講演 1件)

  • [学会発表] FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス2024

    • 著者名/発表者名
      須田仁志
    • 学会等名
      情報処理学会音楽情報科学研究会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] グループアイドルソングに対する音楽情報処理2024

    • 著者名/発表者名
      須田仁志
    • 学会等名
      情報処理学会第86回全国大会
    • 関連する報告書
      2023 実施状況報告書
    • 招待講演
  • [学会発表] 「キミは私の声、好きかな?」 大規模主観評価による声質好感度コーパスの構築とその分析2024

    • 著者名/発表者名
      須田仁志
    • 学会等名
      音学シンポジウム 2024 (第140回音楽情報科学・第152回音声言語情報処理合同研究発表会)
    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2023-09-11   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi