研究課題/領域番号 |
21K17776
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立研究開発法人情報通信研究機構 |
研究代表者 |
沈 鵬 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (80773118)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | language identification / Speech recognition / self-supervised learning / speaker recognition / pre-training model / large language models / speaker diarization / cross-domain / language recognition / speaker recogntion |
研究開始時の研究の概要 |
Developing spoken language and speaker detection techniques is one of the important tasks for improving the usability of real-time multilingual speech translation systems. However, current advanced spoken language and speaker detection techniques cannot perform well on cross-channel and cross-domain data. In this project, investigations will be conducted to understand how to better represent languages and speakers of a speech signal by developing self-supervised graph-based learning techniques for robust spoken language and speaker detection tasks.
|
研究成果の概要 |
本プロジェクトでは、自己教師あり学習または事前学習技術を開発することにより、言語と話者の認識を改善することを目指していた。私たちは、音声信号から言語と話者の特徴をよりよく捉えるためのさまざまな方法を試験した。提案された技術は、言語と話者の認識だけでなく、音声認識タスクにも効果的であった。さらに、単一のモデルを使用して言語、話者、音声認識を対応するマルチタスク認識も検討された。研究成果はIEEE ICASSP、SLT、ASRU、Interspeechなどの国際会議で発表された。
|
研究成果の学術的意義や社会的意義 |
本プロジェクトは、音声信号の理解と表現を進化させることをその大きな目的としており、このことは重要な科学的意義を有する。言語と話者の認識におけるパフォーマンス向上のための技術は、技術的な応用を進めることに役立つ。
|