カクテルパーティーのシナリオでは、さまざまな音源ソースを識別するため、多くの情報を分析することが必要です。本研究では、次のような成果を得られました。1.発話元を特定するために、誰が話しているかは最も重要な情報の1つです。話者埋め込みシステムの開発に加えて、話者認識のための生成的学習と識別的学習の結合を提案しました。私たちのフレームワークは、最先端のモデルと比較して大幅な改善を示しました。2.音声ソースの録音環境はドメインごとに変わる可能性があるため、教師なしドメイン適応手法の新しい距離メトリックを提案しました。提案されたアルゴリズムを応用し、クロスドメイン認識タスクで大幅な改善が得られました。
|