人間の感覚と整合する音声特徴空間の構築

研究課題

研究課題/領域番号	22K19793
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分61:人間情報学およびその関連分野
研究機関	豊橋技術科学大学
研究代表者	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
研究分担者	入部百合絵愛知県立大学, 情報科学部, 准教授 (40397500) 西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878) 太田健吾阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
研究期間 (年度)	2022-06-30 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2024年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円) 2023年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円) 2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	話者空間 / 音声合成 / x-vector / 音声特徴空間 / 音声認識 / 話者埋め込み / 音声 / 特徴量 / 距離
研究開始時の研究の概要	「人間の感覚と整合する音声特徴空間の構築」を目的とする。例えば、音声合成である人と別の人の中間の声を、その特徴空間での内挿で表現できるような空間である。そのために、音声の主観評価を現実的な量で収集し、主観評価と相関する物理量を推定するモデルをPre-trainingし、最後に主観評価データでFine-tuningする。これは自然言語処理のシンボリックな処理でのPre-trainingとFine-tuningによる特定処理への適応をパターン処理の分野に拡張することになる。
研究実績の概要	音声合成のための話者性を表現する「話者空間」において，感覚に近い距離を持つ空間の構築を試みた．近年，複数話者の声質や話し方について学習している音声合成器を用いて，学習セットに含まれていない話者の音声を新たに合成する話者生成手法が考案されている．本研究では，複数話者音声合成に用いる話者空間にx-vector を採用し，二人の話者の空間内位置の中間に位置するベクトルで，中間音声を表現し，その音声を合成する手法を提案する．まず提案手法では，話者の音声からx-vector を抽出するときに，損失関数として話者間の類似度を考慮する．そして，それらのx-vectorの内分点をとることで話者間の中間に位置するような中間話者x-vector を生成する．最終的には，テキストと中間話者x-vector を結合した特徴量を用いて中間音声を生成する．提案手法により，基本周波数と発話区間長において，合成された音声が元話者の中間に位置していることが示された．また，x-vector およびユークリッドノルムに関して正規化されたx-vector を用いた手法と比較したところ，基本周波数と発話区間長に関する客観評価，中間音声を選択する主観評価実験の両方で同等程度の品質であることが示された．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由最終目標としている感覚に一致する話者空間を、音声合成のタスクの下で構築することに成功した。機械学習における話者埋め込み（Speaker embedding）に基づく手法であり、なおかつ人間の主観を数値化したデータを用いた学習規範（ロス関数）を定義したうえで、その際消火による学習方法を高難することができた。
今後の研究の推進方策	音声認識において、その特徴量や認識性能・認識結果の傾向などから話者を区分することで空間の下となるデータを構築し、それらの中間的な特徴を持つ（あるいは両方の特徴を併せ持つ）話者の音声認識性能を向上できるような話者空間表現の構築を目指す。この話者空間上で指定した話者特徴を持つ話者の音声の認識性能を向上できるような手法を考案する。