研究課題/領域番号 |
19K24376
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 国立研究開発法人情報通信研究機構 |
研究代表者 |
李 勝 国立研究開発法人情報通信研究機構, 先進的音声翻訳研究開発推進センター 先進的音声技術研究室, 研究員 (70840940)
|
研究期間 (年度) |
2019-08-30 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | speech recognition / multilingual / articulation / End-to-End / multilingual modeling / low-resourced modeling / speech translation / multi-unit modeling / language identification / disordered speech / code-switched / end-to-end / speaker diarization |
研究開始時の研究の概要 |
This project will focus on tackling the problems of the low-resource language (e.g., ASEAN languages) and modeling languages as many as we can (hundreds of languages from all language families) in a single model under current state-of-the-art End-to-End automatic speech recognition (ASR) framework.
|
研究成果の概要 |
市販のASR対応製品の多くは、英語、フランス語、中国語、日本語など、特定のポピュラーな言語を対象としています。しかし、ASEAN諸国の言語のように、一般的ではない言語の音声認識については、今後も研究が必要です。グローバルな国際化に伴い、地域のイベントや文化交流、お祭りなど、現実に多言語コミュニケーションが必要な場面が増えています。 提案されたプロジェクトでは、リソースの少ないデータの問題に取り組み、現在の最先端のEnd-to-Endモデリングフレームワークの下で、多くの言語を1つのモデルでモデリングすることに焦点を当てました。また、これらの問題を徹底的に調査しました。
|
研究成果の学術的意義や社会的意義 |
This research shows we can integrate linguistic knowledge into the neural network instead of adding more layers or enlarging the model size. The proposed method is universally available for broad tasks for Society 5.0 (such as multilingual speech recognition, disordered speech recognition).
|