Self-supervised graph-based representation for language and speaker detection

研究課題

研究課題/領域番号	21K17776
研究種目	若手研究
配分区分	基金
審査区分	小区分61010:知覚情報処理関連
研究機関	国立研究開発法人情報通信研究機構
研究代表者	沈鵬国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (80773118)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード	language identification / Speech recognition / self-supervised learning / speaker recognition / pre-training model / large language models / speaker diarization / cross-domain / language recognition / speaker recogntion
研究開始時の研究の概要	Developing spoken language and speaker detection techniques is one of the important tasks for improving the usability of real-time multilingual speech translation systems. However, current advanced spoken language and speaker detection techniques cannot perform well on cross-channel and cross-domain data. In this project, investigations will be conducted to understand how to better represent languages and speakers of a speech signal by developing self-supervised graph-based learning techniques for robust spoken language and speaker detection tasks.
研究成果の概要	本プロジェクトでは、自己教師あり学習または事前学習技術を開発することにより、言語と話者の認識を改善することを目指していた。私たちは、音声信号から言語と話者の特徴をよりよく捉えるためのさまざまな方法を試験した。提案された技術は、言語と話者の認識だけでなく、音声認識タスクにも効果的であった。さらに、単一のモデルを使用して言語、話者、音声認識を対応するマルチタスク認識も検討された。研究成果はIEEE ICASSP、SLT、ASRU、Interspeechなどの国際会議で発表された。
研究成果の学術的意義や社会的意義	本プロジェクトは、音声信号の理解と表現を進化させることをその大きな目的としており、このことは重要な科学的意義を有する。言語と話者の認識におけるパフォーマンス向上のための技術は、技術的な応用を進めることに役立つ。

報告書

(4件)

研究成果
(8件)

すべて 2024 2023 2022 2021

すべて雑誌論文 (1件) (うち国際共著 1件、査読あり 1件、オープンアクセス 1件) 学会発表 (7件) (うち国際学会 6件)

[雑誌論文] Coupling a Generative Model With a Discriminative Learning Framework for Speaker Verification2021
- 著者名/発表者名
  Lu Xugang、Shen Peng、Tsao Yu、Kawai Hisashi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 29 ページ: 3631-3641
- DOI
  10.1109/taslp.2021.3129360
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] Hierarchical cross-modality knowledge transfer with Sinkhorn attention for CTC-based ASR2024
- 著者名/発表者名
  X. Lu, P. Shen, Y. Tsao, H. Kawai
- 学会等名
  IEEE ICASSP
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Generative linguistic representation for spoken language identification2023
- 著者名/発表者名
  P. Shen, X. Lu, H. Kawai
- 学会等名
  IEEE ASRU
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Cross-modal alignment with optimal transport for CTC-based ASR2023
- 著者名/発表者名
  X. Lu, P. Shen, Y. Tsao, H. Kawai
- 学会等名
  IEEE ASRU
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Investigation on Multi-task Universal Speech Models2023
- 著者名/発表者名
  P. Shen, X. Lu, H. Kawai
- 学会等名
  Autumn Meeting of Acoustical Society of Japan
- 関連する報告書
  2023 実績報告書
[学会発表] Partial Coupling of Optimal Transport for Spoken Language Identification2022
- 著者名/発表者名
  P Shen, X Lu, H Kawai
- 学会等名
  SLT2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Transducer-based language embedding for spoken language identification2022
- 著者名/発表者名
  P Shen, X Lu, H Kawai
- 学会等名
  Interspeech2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Siamese Neural Network with Joint Bayesian Model Structure for Speaker Verification2021
- 著者名/発表者名
  X. Lu, P. Shen, Y. Tsao, H. Kawai
- 学会等名
  APASIPA ASC
- 関連する報告書
  2021 実施状況報告書
- 国際学会

Self-supervised graph-based representation for language and speaker detection

研究代表者

沈 鵬 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (80773118)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

報告書

研究成果

[雑誌論文] Coupling a Generative Model With a Discriminative Learning Framework for Speaker Verification2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Hierarchical cross-modality knowledge transfer with Sinkhorn attention for CTC-based ASR2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Generative linguistic representation for spoken language identification2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Cross-modal alignment with optimal transport for CTC-based ASR2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Investigation on Multi-task Universal Speech Models2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Partial Coupling of Optimal Transport for Spoken Language Identification2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transducer-based language embedding for spoken language identification2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Siamese Neural Network with Joint Bayesian Model Structure for Speaker Verification2021

著者名/発表者名

学会等名

関連する報告書

沈鵬国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (80773118)