2023 年度実施状況報告書

人間の感覚と整合する音声特徴空間の構築

研究課題

研究課題/領域番号	22K19793
研究機関	豊橋技術科学大学
研究代表者	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
研究分担者	入部百合絵愛知県立大学, 情報科学部, 准教授 (40397500) 西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878) 太田健吾阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
研究期間 (年度)	2022-06-30 – 2025-03-31
キーワード	話者空間 / 音声合成 / x-vector
研究実績の概要	音声合成のための話者性を表現する「話者空間」において，感覚に近い距離を持つ空間の構築を試みた．近年，複数話者の声質や話し方について学習している音声合成器を用いて，学習セットに含まれていない話者の音声を新たに合成する話者生成手法が考案されている．本研究では，複数話者音声合成に用いる話者空間にx-vector を採用し，二人の話者の空間内位置の中間に位置するベクトルで，中間音声を表現し，その音声を合成する手法を提案する．まず提案手法では，話者の音声からx-vector を抽出するときに，損失関数として話者間の類似度を考慮する．そして，それらのx-vectorの内分点をとることで話者間の中間に位置するような中間話者x-vector を生成する．最終的には，テキストと中間話者x-vector を結合した特徴量を用いて中間音声を生成する．提案手法により，基本周波数と発話区間長において，合成された音声が元話者の中間に位置していることが示された．また，x-vector およびユークリッドノルムに関して正規化されたx-vector を用いた手法と比較したところ，基本周波数と発話区間長に関する客観評価，中間音声を選択する主観評価実験の両方で同等程度の品質であることが示された．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由最終目標としている感覚に一致する話者空間を、音声合成のタスクの下で構築することに成功した。機械学習における話者埋め込み（Speaker embedding）に基づく手法であり、なおかつ人間の主観を数値化したデータを用いた学習規範（ロス関数）を定義したうえで、その際消火による学習方法を高難することができた。
今後の研究の推進方策	音声認識において、その特徴量や認識性能・認識結果の傾向などから話者を区分することで空間の下となるデータを構築し、それらの中間的な特徴を持つ（あるいは両方の特徴を併せ持つ）話者の音声認識性能を向上できるような話者空間表現の構築を目指す。この話者空間上で指定した話者特徴を持つ話者の音声の認識性能を向上できるような手法を考案する。
次年度使用額が生じた理由	国際会議への発表に間に合わなかったため旅費などを繰り越した。この費用によりトップカンファレンスへの投稿を行う。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] x-vectorの話者空間を利用した2話者間の中間話者音声合成2024
- 著者名/発表者名
  細井颯太，木内貴浩，若林佑幸，北岡教英
- 学会等名
  SPEASIPワークショップ2024