2023 Fiscal Year Research-status Report
Development of Speech Synthesis System for Controlling Speaker Identity through Text Prompts and Visual Interfaces
Project/Area Number |
23K20017
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
須田 仁志 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60981438)
|
Project Period (FY) |
2023-08-31 – 2025-03-31
|
Keywords | 音声デザイン / 声質 / 好感度 / 音声合成 / 話者認識 |
Outline of Annual Research Achievements |
本課題は、適切な音声デザインのため、声質の制御を可能にする音声合成システムを提案するものである。現在、YouTubeから収集した多様な声質の表現文と音声の対応コーパスであるCoco-Nutが提案・公開されている。本課題では、Coco-Nutを活用し、多様な音声に対して「好感度」の観点から分析を行った。本課題ではCoco-Nutに含まれる1800の音声に対して、885人の聴取者による好感度の評点を与えた。この評点を分析することで、基本周波数や話者表現などの音声から抽出可能な特徴量と、好感度の平均点や分散、好感度の性差に関係があることを明らかにした。これによって、どのような音声が好まれるかの推定や、男性に特に好まれる音声、若い女性に特に好まれる音声など、対象聴取者に応じた音声デザインが可能になる。したがって、幅広い声質の中から、より音声デザインに適した音声を抽出でき、声質の制御に大きな貢献をもたらす。また、男女間や異なる年齢間での評点の与え方の傾向についても明らかにし、最終的な声質制御システムの評価におけるバイアスの分析にも活用可能である。 また、声質に関連して、歌声から声質情報を抽出する研究を行った。特に上述のCoco-Nutのような短時間の音声から声質情報を抽出する場合、その声質情報の品質に疑問が生じる。本課題では、複数人が歌唱する楽曲から各歌唱者の声質情報を抽出し歌唱者を短時間で認識する、という挑戦的な問題に着目した。本課題ではこの問題に取り組むため、歌声に関するアノテーションを与えた歌声コーパスを構築した。さらに、本コーパスを用いて声質にもとづく認識を行った結果、既存の声質分析手法の問題点を明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
大規模な評価実験を行い、機械学習に利用可能な好感度データを収集・構築済みである。また、これらのデータに対して分析を行い、音声から抽出される種々の特徴量との関連についても調査済みである。また、関連した歌声のデータも収集・構築済みである。声質の好感度の分析については2024年6月開催の音学シンポジウム 2024 (第140回音楽情報科学・第152回音声言語情報処理合同研究発表会)に投稿し、歌声の声質分析については2024年3月開催の情報処理学会音楽情報科学研究会で発表した。
|
Strategy for Future Research Activity |
現在、好感度に関する大規模なデータの構築が完了した。これにもとづき、音声から抽出される特徴量(基本周波数、話者表現、自己教師あり学習モデルによる特徴量など)と、その好感度の関係性を、具体的に深層学習モデルによりモデル化する。これを利用することで、好感度が高いと感じられる音声や、特定の聴取者にターゲティングした音声のデザインを可能にする。このアプローチを活用し、効率的に声質を探索可能な声質制御・選択のインタフェースを実現する。また、テキスト音声合成にこの結果を適用し、実験的に評価する。
|
Causes of Carryover |
大規模計算機ABCIおよびクラウドサービスの使用方法を効率化したため、次年度使用額が生じた。次年度(本年度)は国際会議の参加費に用いる。現在本研究に関した論文を投稿済みの国際会議では、参加費・渡航費ともに大きくなることが予想されるため、同使用額および請求した助成金を要する。
|