人間の感覚と整合する音声特徴空間の構築

Research Project

Project/Area Number	22K19793
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 61:Human informatics and related fields
Research Institution	Toyohashi University of Technology
Principal Investigator	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
Co-Investigator(Kenkyū-buntansha)	入部百合絵愛知県立大学, 情報科学部, 准教授 (40397500) 西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878) 太田健吾阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
Project Period (FY)	2022-06-30 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000) Fiscal Year 2024: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000) Fiscal Year 2023: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000) Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywords	話者空間 / 音声合成 / x-vector / 音声特徴空間 / 音声認識 / 話者埋め込み / 音声 / 特徴量 / 距離
Outline of Research at the Start	「人間の感覚と整合する音声特徴空間の構築」を目的とする。例えば、音声合成である人と別の人の中間の声を、その特徴空間での内挿で表現できるような空間である。そのために、音声の主観評価を現実的な量で収集し、主観評価と相関する物理量を推定するモデルをPre-trainingし、最後に主観評価データでFine-tuningする。これは自然言語処理のシンボリックな処理でのPre-trainingとFine-tuningによる特定処理への適応をパターン処理の分野に拡張することになる。
Outline of Annual Research Achievements	音声合成のための話者性を表現する「話者空間」において，感覚に近い距離を持つ空間の構築を試みた．近年，複数話者の声質や話し方について学習している音声合成器を用いて，学習セットに含まれていない話者の音声を新たに合成する話者生成手法が考案されている．本研究では，複数話者音声合成に用いる話者空間にx-vector を採用し，二人の話者の空間内位置の中間に位置するベクトルで，中間音声を表現し，その音声を合成する手法を提案する．まず提案手法では，話者の音声からx-vector を抽出するときに，損失関数として話者間の類似度を考慮する．そして，それらのx-vectorの内分点をとることで話者間の中間に位置するような中間話者x-vector を生成する．最終的には，テキストと中間話者x-vector を結合した特徴量を用いて中間音声を生成する．提案手法により，基本周波数と発話区間長において，合成された音声が元話者の中間に位置していることが示された．また，x-vector およびユークリッドノルムに関して正規化されたx-vector を用いた手法と比較したところ，基本周波数と発話区間長に関する客観評価，中間音声を選択する主観評価実験の両方で同等程度の品質であることが示された．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 最終目標としている感覚に一致する話者空間を、音声合成のタスクの下で構築することに成功した。機械学習における話者埋め込み（Speaker embedding）に基づく手法であり、なおかつ人間の主観を数値化したデータを用いた学習規範（ロス関数）を定義したうえで、その際消火による学習方法を高難することができた。
Strategy for Future Research Activity	音声認識において、その特徴量や認識性能・認識結果の傾向などから話者を区分することで空間の下となるデータを構築し、それらの中間的な特徴を持つ（あるいは両方の特徴を併せ持つ）話者の音声認識性能を向上できるような話者空間表現の構築を目指す。この話者空間上で指定した話者特徴を持つ話者の音声の認識性能を向上できるような手法を考案する。