Project/Area Number |
22K19793
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
|
Co-Investigator(Kenkyū-buntansha) |
入部 百合絵 愛知県立大学, 情報科学部, 准教授 (40397500)
西村 良太 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
太田 健吾 阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2024: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Fiscal Year 2023: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 音声特徴空間 / 音声合成 / 音声認識 / 話者埋め込み / 音声 / 特徴量 / 距離 |
Outline of Research at the Start |
「人間の感覚と整合する音声特徴空間の構築」を目的とする。例えば、音声合成である人と別の人の中間の声を、その特徴空間での内挿で表現できるような空間である。そのために、音声の主観評価を現実的な量で収集し、主観評価と相関する物理量を推定するモデルをPre-trainingし、最後に主観評価データでFine-tuningする。これは自然言語処理のシンボリックな処理でのPre-trainingとFine-tuningによる特定処理への適応をパターン処理の分野に拡張することになる。
|
Outline of Annual Research Achievements |
「人間の感覚と整合する音声特徴空間の構築」を目的とする。音声合成で感情を付与するとき、「平静」と「喜び」は付与可能だが「少しの喜び」はこれらの内挿で実現できない。音声認識で「若年層」と「高齢者層」のデータを用いてこれらの音声認識性能は向上できるが「中年層」の性能は向上できない。 この目的を達するために、まず、「2話者の中間音声を合成する音声合成器」の構築を開始した。具体的には、複数話者の音声を話者埋め込みを与えることで実現できるマルチスピーカー音声合成器をTacotron 2に基づいて構築した。そして、その出力音声を、対象とする2話者を識別する話者識別機にかけ、その結果が2話者同等となるようなロス(すなわち両者の確率が0.5となる場合とのクロスエントロピー)を定義する。話者識別の特徴空間は、人間の聴覚の感覚に近いとされるメルスペクトル空間とする。さらに、音声の内容を保持することを保証するために、音声を音声認識器にも入力し、合成音声の認識結果を出力して、合成しようとした正しいテキストと比較した際の誤認識がロスとなるようにする。これらのロスを逆伝搬することで、クリアでかつ2話者両方に同等に近い音声を合成することを試みる。 このシステムがほぼ完成したので、今後これを評価する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
まず音声合成をする枠組みが構築できた。 これを用いて合成を行い、その音声と人との感覚とを比較して音響特徴部分をチューンするあるいは自動的に音響特徴が修正されることによって新たな音響特徴空間が構築されることが期待できる。
|
Strategy for Future Research Activity |
まずは合成器を動作させ、生成された合成音声を評価する。次に人手で近さ(中間度合い)を評価し、それをフィードバックする学習法を考案する。 合成時に話者埋め込みベクトルを与えるが、その話者埋め込み部分も学習し、2話者の中間を表現するベクトルとなるように学習させることで、話者埋め込み空間が直観に合うことを確認する。
|