研究課題/領域番号 |
22K19793
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
|
研究分担者 |
入部 百合絵 愛知県立大学, 情報科学部, 准教授 (40397500)
西村 良太 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
太田 健吾 阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
|
研究期間 (年度) |
2022-06-30 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2024年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2023年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 音声特徴空間 / 音声合成 / 音声認識 / 話者埋め込み / 音声 / 特徴量 / 距離 |
研究開始時の研究の概要 |
「人間の感覚と整合する音声特徴空間の構築」を目的とする。例えば、音声合成である人と別の人の中間の声を、その特徴空間での内挿で表現できるような空間である。そのために、音声の主観評価を現実的な量で収集し、主観評価と相関する物理量を推定するモデルをPre-trainingし、最後に主観評価データでFine-tuningする。これは自然言語処理のシンボリックな処理でのPre-trainingとFine-tuningによる特定処理への適応をパターン処理の分野に拡張することになる。
|
研究実績の概要 |
「人間の感覚と整合する音声特徴空間の構築」を目的とする。音声合成で感情を付与するとき、「平静」と「喜び」は付与可能だが「少しの喜び」はこれらの内挿で実現できない。音声認識で「若年層」と「高齢者層」のデータを用いてこれらの音声認識性能は向上できるが「中年層」の性能は向上できない。 この目的を達するために、まず、「2話者の中間音声を合成する音声合成器」の構築を開始した。具体的には、複数話者の音声を話者埋め込みを与えることで実現できるマルチスピーカー音声合成器をTacotron 2に基づいて構築した。そして、その出力音声を、対象とする2話者を識別する話者識別機にかけ、その結果が2話者同等となるようなロス(すなわち両者の確率が0.5となる場合とのクロスエントロピー)を定義する。話者識別の特徴空間は、人間の聴覚の感覚に近いとされるメルスペクトル空間とする。さらに、音声の内容を保持することを保証するために、音声を音声認識器にも入力し、合成音声の認識結果を出力して、合成しようとした正しいテキストと比較した際の誤認識がロスとなるようにする。これらのロスを逆伝搬することで、クリアでかつ2話者両方に同等に近い音声を合成することを試みる。 このシステムがほぼ完成したので、今後これを評価する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
まず音声合成をする枠組みが構築できた。 これを用いて合成を行い、その音声と人との感覚とを比較して音響特徴部分をチューンするあるいは自動的に音響特徴が修正されることによって新たな音響特徴空間が構築されることが期待できる。
|
今後の研究の推進方策 |
まずは合成器を動作させ、生成された合成音声を評価する。次に人手で近さ(中間度合い)を評価し、それをフィードバックする学習法を考案する。 合成時に話者埋め込みベクトルを与えるが、その話者埋め込み部分も学習し、2話者の中間を表現するベクトルとなるように学習させることで、話者埋め込み空間が直観に合うことを確認する。
|