Development of Speech Synthesis System for Controlling Speaker Identity through Text Prompts and Visual Interfaces

Research Project

Project/Area Number	23K20017
Research Category	Grant-in-Aid for Research Activity Start-up
Allocation Type	Multi-year Fund
Review Section	1002:Human informatics, applied informatics and related fields
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	須田仁志国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60981438)
Project Period (FY)	2023-08-31 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000) Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords	音声デザイン / 声質 / 好感度 / 音声合成 / 話者認識 / テキスト音声合成 / 感情音声合成 / 声質制御 / 生成AI
Outline of Research at the Start	音声合成システムを利用する際には，利用目的に応じた声質（話者らしさ）の選択が重要である．しかし従来手法では，声質は実在の話者に制約され，これを自在に制御することは難しい．本研究では，所望の声質でのテキスト音声合成を実現するため，プロンプト（声質を表現するテキスト）および視覚的インタフェースを通じて合成音声の声質を手軽に制御できる技術を開発する．構築した技術をWebインタフェースとして利用可能にし，合成音声の品質やユーザビリティなどの観点から本技術の有効性を多角的に評価する．
Outline of Annual Research Achievements	本課題は、適切な音声デザインのため、声質の制御を可能にする音声合成システムを提案するものである。現在、YouTubeから収集した多様な声質の表現文と音声の対応コーパスであるCoco-Nutが提案・公開されている。本課題では、Coco-Nutを活用し、多様な音声に対して「好感度」の観点から分析を行った。本課題ではCoco-Nutに含まれる1800の音声に対して、885人の聴取者による好感度の評点を与えた。この評点を分析することで、基本周波数や話者表現などの音声から抽出可能な特徴量と、好感度の平均点や分散、好感度の性差に関係があることを明らかにした。これによって、どのような音声が好まれるかの推定や、男性に特に好まれる音声、若い女性に特に好まれる音声など、対象聴取者に応じた音声デザインが可能になる。したがって、幅広い声質の中から、より音声デザインに適した音声を抽出でき、声質の制御に大きな貢献をもたらす。また、男女間や異なる年齢間での評点の与え方の傾向についても明らかにし、最終的な声質制御システムの評価におけるバイアスの分析にも活用可能である。また、声質に関連して、歌声から声質情報を抽出する研究を行った。特に上述のCoco-Nutのような短時間の音声から声質情報を抽出する場合、その声質情報の品質に疑問が生じる。本課題では、複数人が歌唱する楽曲から各歌唱者の声質情報を抽出し歌唱者を短時間で認識する、という挑戦的な問題に着目した。本課題ではこの問題に取り組むため、歌声に関するアノテーションを与えた歌声コーパスを構築した。さらに、本コーパスを用いて声質にもとづく認識を行った結果、既存の声質分析手法の問題点を明らかにした。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 大規模な評価実験を行い、機械学習に利用可能な好感度データを収集・構築済みである。また、これらのデータに対して分析を行い、音声から抽出される種々の特徴量との関連についても調査済みである。また、関連した歌声のデータも収集・構築済みである。声質の好感度の分析については2024年6月開催の音学シンポジウム 2024 （第140回音楽情報科学・第152回音声言語情報処理合同研究発表会）に投稿し、歌声の声質分析については2024年3月開催の情報処理学会音楽情報科学研究会で発表した。
Strategy for Future Research Activity	現在、好感度に関する大規模なデータの構築が完了した。これにもとづき、音声から抽出される特徴量（基本周波数、話者表現、自己教師あり学習モデルによる特徴量など）と、その好感度の関係性を、具体的に深層学習モデルによりモデル化する。これを利用することで、好感度が高いと感じられる音声や、特定の聴取者にターゲティングした音声のデザインを可能にする。このアプローチを活用し、効率的に声質を探索可能な声質制御・選択のインタフェースを実現する。また、テキスト音声合成にこの結果を適用し、実験的に評価する。