2022 Fiscal Year Research-status Report

人間の感覚と整合する音声特徴空間の構築

Research Project

Project/Area Number	22K19793
Research Institution	Toyohashi University of Technology
Principal Investigator	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
Co-Investigator(Kenkyū-buntansha)	入部百合絵愛知県立大学, 情報科学部, 准教授 (40397500) 西村良太徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878) 太田健吾阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
Project Period (FY)	2022-06-30 – 2025-03-31
Keywords	音声特徴空間 / 音声合成 / 音声認識 / 話者埋め込み
Outline of Annual Research Achievements	「人間の感覚と整合する音声特徴空間の構築」を目的とする。音声合成で感情を付与するとき、「平静」と「喜び」は付与可能だが「少しの喜び」はこれらの内挿で実現できない。音声認識で「若年層」と「高齢者層」のデータを用いてこれらの音声認識性能は向上できるが「中年層」の性能は向上できない。この目的を達するために、まず、「2話者の中間音声を合成する音声合成器」の構築を開始した。具体的には、複数話者の音声を話者埋め込みを与えることで実現できるマルチスピーカー音声合成器をTacotron 2に基づいて構築した。そして、その出力音声を、対象とする2話者を識別する話者識別機にかけ、その結果が2話者同等となるようなロス（すなわち両者の確率が0.5となる場合とのクロスエントロピー）を定義する。話者識別の特徴空間は、人間の聴覚の感覚に近いとされるメルスペクトル空間とする。さらに、音声の内容を保持することを保証するために、音声を音声認識器にも入力し、合成音声の認識結果を出力して、合成しようとした正しいテキストと比較した際の誤認識がロスとなるようにする。これらのロスを逆伝搬することで、クリアでかつ2話者両方に同等に近い音声を合成することを試みる。このシステムがほぼ完成したので、今後これを評価する。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason まず音声合成をする枠組みが構築できた。これを用いて合成を行い、その音声と人との感覚とを比較して音響特徴部分をチューンするあるいは自動的に音響特徴が修正されることによって新たな音響特徴空間が構築されることが期待できる。
Strategy for Future Research Activity	まずは合成器を動作させ、生成された合成音声を評価する。次に人手で近さ（中間度合い）を評価し、それをフィードバックする学習法を考案する。合成時に話者埋め込みベクトルを与えるが、その話者埋め込み部分も学習し、2話者の中間を表現するベクトルとなるように学習させることで、話者埋め込み空間が直観に合うことを確認する。
Causes of Carryover	学会発表のタイミングが年度を超えたため、その旅費や参加費などが次年度に持ち越されたため。