研究課題/領域番号 |
19K12035
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立研究開発法人情報通信研究機構 |
研究代表者 |
LU Xugang 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (20362022)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2019年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
|
キーワード | 知能情報 / Generative model / Discriminative model / Model coupling / Speaker embedidng / Unsupervised adaptation / Acoustic event detection / Speaker embedding / predictive coding / cocktail party |
研究開始時の研究の概要 |
We investigate predictive coding principle for computational model to dynamically parse the incoming mixed sound sources, and try to apply the model to the long-standing cocktail-party problem in ASR research field.
|
研究成果の概要 |
カクテルパーティーのシナリオでは、さまざまな音源ソースを識別するため、多くの情報を分析することが必要です。本研究では、次のような成果を得られました。1.発話元を特定するために、誰が話しているかは最も重要な情報の1つです。話者埋め込みシステムの開発に加えて、話者認識のための生成的学習と識別的学習の結合を提案しました。私たちのフレームワークは、最先端のモデルと比較して大幅な改善を示しました。2.音声ソースの録音環境はドメインごとに変わる可能性があるため、教師なしドメイン適応手法の新しい距離メトリックを提案しました。提案されたアルゴリズムを応用し、クロスドメイン認識タスクで大幅な改善が得られました。
|
研究成果の学術的意義や社会的意義 |
カクテルパーティーのシナリオでは、混合音声ソースの場合、誰が話し、どの言語が使用されているかが、音声ソースの分離に関する重要な事前知識です。話者の認識性能と言語認識を改善するための新しいアイデアとアルゴリズムを開発しました。これは、音声ソースの事前知識の質を高めるのに役立ちます。
|