• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

Next generation multilingual End-to-End speech recognition (from G30 to G200)

研究課題

研究課題/領域番号 19K24376
研究種目

研究活動スタート支援

配分区分基金
審査区分 1002:人間情報学、応用情報学およびその関連分野
研究機関国立研究開発法人情報通信研究機構

研究代表者

李 勝  国立研究開発法人情報通信研究機構, 先進的音声翻訳研究開発推進センター 先進的音声技術研究室, 研究員 (70840940)

研究期間 (年度) 2019-08-30 – 2021-03-31
研究課題ステータス 完了 (2020年度)
配分額 *注記
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワードspeech recognition / multilingual / articulation / End-to-End / multilingual modeling / low-resourced modeling / speech translation / multi-unit modeling / language identification / disordered speech / code-switched / end-to-end / speaker diarization
研究開始時の研究の概要

This project will focus on tackling the problems of the low-resource language (e.g., ASEAN languages) and modeling languages as many as we can (hundreds of languages from all language families) in a single model under current state-of-the-art End-to-End automatic speech recognition (ASR) framework.

研究成果の概要

市販のASR対応製品の多くは、英語、フランス語、中国語、日本語など、特定のポピュラーな言語を対象としています。しかし、ASEAN諸国の言語のように、一般的ではない言語の音声認識については、今後も研究が必要です。グローバルな国際化に伴い、地域のイベントや文化交流、お祭りなど、現実に多言語コミュニケーションが必要な場面が増えています。
提案されたプロジェクトでは、リソースの少ないデータの問題に取り組み、現在の最先端のEnd-to-Endモデリングフレームワークの下で、多くの言語を1つのモデルでモデリングすることに焦点を当てました。また、これらの問題を徹底的に調査しました。

研究成果の学術的意義や社会的意義

This research shows we can integrate linguistic knowledge into the neural network instead of adding more layers or enlarging the model size. The proposed method is universally available for broad tasks for Society 5.0 (such as multilingual speech recognition, disordered speech recognition).

報告書

(3件)
  • 2020 実績報告書   研究成果報告書 ( PDF )
  • 2019 実施状況報告書
  • 研究成果

    (40件)

すべて 2021 2020 2019 その他

すべて 国際共同研究 (2件) 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (24件) (うち国際学会 18件、 招待講演 4件) 図書 (1件) 備考 (5件) 産業財産権 (4件) 学会・シンポジウム開催 (3件)

  • [国際共同研究] Tianjin University/Xinjiang University/Hithink RoyalFlush AI(中国)

    • 関連する報告書
      2020 実績報告書
  • [国際共同研究] Tianjin University(中国)

    • 関連する報告書
      2019 実施状況報告書
  • [雑誌論文] Knowledge Distillation-based Representation Learning for Short-Utterance Spoken Language Identification2020

    • 著者名/発表者名
      P. Shen, X. Lu, S. Li, H. Kawai.
    • 雑誌名

      IEEE/ACM Trans. Audio, Speech \& Language Process.

      巻: 28 ページ: 2674-2683

    • DOI

      10.1109/taslp.2020.3023627

    • 関連する報告書
      2020 実績報告書
    • 査読あり
  • [学会発表] Robust voice activity detection using a masked auditory encoder based convolutional neural network.2021

    • 著者名/発表者名
      N. Li, L. Wang, M. Unoki, S. Li, R. Wang, M. Ge, J. Dang,
    • 学会等名
      IEEE-ICASSP, 2021
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] An investigation of using hybrid modeling units for improving End-to-End speech recognition systems.2021

    • 著者名/発表者名
      S. Chen, X. Hu, S. Li, X. Xu,
    • 学会等名
      IEEE-ICASSP, 2021.
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Encoder-Decoder based pitch tracking and joint model training for Mandarin tone classification.2021

    • 著者名/発表者名
      H. Huang, K. Wang, Y. Hu, S. Li,
    • 学会等名
      IEEE-ICASSP, 2021.
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Comparison of End-to-End Models for Joint Speaker and Speech Recognition2021

    • 著者名/発表者名
      K. Soky, S. Li, M. Mimura, C. Chu, T. Kawahara,
    • 学会等名
      IEICE-SP, 2021.
    • 関連する報告書
      2020 実績報告書
  • [学会発表] Phantom in the Opera: Effective Adversarial Music Attack on Keyword Spotting Systems.2020

    • 著者名/発表者名
      H. Zhang, S. Li, X. Ma, Y. Zhao, Y. Cao, T. Kawahara,
    • 学会等名
      IEEE-SLT, 2021
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Multilingual transformer training for Khmer automatic speech recognition2020

    • 著者名/発表者名
      K. Soky, S. Li, T. Kawahara, S. Seng,
    • 学会等名
      Interspeech 2020 Satellite Workshop (SLIMTS2020)
    • 関連する報告書
      2020 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] End-to-End Speech Translation with Cross-lingual Transfer Learning2020

    • 著者名/発表者名
      S. Shimizu, C. Chu, S. Li, S. Kurohashi,
    • 学会等名
      NLP, 2021.
    • 関連する報告書
      2020 実績報告書
  • [学会発表] Effectively Synthesizing Code-switched Speech Using Highly Imbalanced Mix-lingual Data and mask embedding2020

    • 著者名/発表者名
      S. Guo, L. Wang, S. Li, J. Zhang, C. Gong, Y. Wang, J. Dang, K. Honda
    • 学会等名
      Interspeech 2020 Satellite Workshop (SLIMTS2020)
    • 関連する報告書
      2020 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] A Mixture of Character and Word End-to-End System for Keyword Spotting2020

    • 著者名/発表者名
      H. Zhang, S. Ueno, M. Mimura, S. Li, W. Zhang, T. Kawahara,
    • 学会等名
      Interspeech 2020 Satellite Workshop (SLIMTS2020)(full paper).
    • 関連する報告書
      2020 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] Effectively Synthesizing Code-switched Speech Using Highly Imbalanced Mix-lingual Data2020

    • 著者名/発表者名
      S. Guo, L. Wang, S. Li, J. Zhang, C. Gong, Y. Wang, J. Dang, K. Honda.
    • 学会等名
      In Proc. ICONIP, 2020.
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Staged Knowledge Distillation for End-to-End Dysarthric Speech Recognition and Speech Attribute Transcription2020

    • 著者名/発表者名
      Y. Lin, L. Wang, S. Li, J. Dang, and C. Ding.
    • 学会等名
      In Proc. INTERSPEECH, 2020 (Travel Granted by ISCA).
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] VOIS: The First Speech Therapy App in the World for Myanmar Hearing-Impaired Children.2020

    • 著者名/発表者名
      A. Thida, N. Han, S. Oo, S. Li and C. Ding.
    • 学会等名
      In Proc. O-COCOSDA, 2020.
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Voice-Indistinguishability: Protecting Voiceprint in Privacy-Preserving Speech Data Release,2020

    • 著者名/発表者名
      Y. Han, Y. Cao, S. Li, Q. Ma, M. Yoshikawa.
    • 学会等名
      Interspeech 2020 Satellite Workshop (SLIMTS2020) (invited report).
    • 関連する報告書
      2020 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] Voice-Indistinguishability: Protecting Voiceprint with Differential Privacy under an Untrusted Server.2020

    • 著者名/発表者名
      Y. Han, Y. Cao, S. Li, Q. Ma, M. Yoshikawa.
    • 学会等名
      ACM conference on Computer and Communications Security (CCS), demo, 2020.
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] System Description for Voice Privacy Challenge (Kyoto Team).2020

    • 著者名/発表者名
      Y. Han, S. Li, Y. Cao, M. Yoshikawa,
    • 学会等名
      In special session of INTERSPEECH 2020 (VoicePrivacy challenge 2020).
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Singing Voice Extraction with Attention based Spectrograms Fusion.2020

    • 著者名/発表者名
      H. Shi, L. Wang, S. Li, C. Ding, M. Ge, N. Li, J. Dang, and H. Seki.
    • 学会等名
      In Proc. INTERSPEECH, 2020 (Travel Granted by ISCA).
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Joint Training End-to-End Speech Recognition Systems with Speaker Attributes.2020

    • 著者名/発表者名
      S. Li, X. Lu, R. Dabre, P. Shen and H. Kawai
    • 学会等名
      ISCA-Odyssey (The Speaker and Language Recognition Workshop)
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [学会発表] Compensation on x-vector for short utterance spoken language identification.2020

    • 著者名/発表者名
      P. Shen, X. Lu, K. Sugiura, S. Li and H. Kawai.
    • 学会等名
      ISCA-Odyssey (The Speaker and Language Recognition Workshop)
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [学会発表] Voice-Indistinguishability: Protecting Voiceprint in Privacy Preserving Speech Data Release.2020

    • 著者名/発表者名
      Y. Han, S. Li, Y. Cao, Q. Ma and M. Yoshikawa.
    • 学会等名
      IEEE-ICME
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [学会発表] End-To-End Articulatory Modeling for Dysarthria Articulatory Attribute Detection.2020

    • 著者名/発表者名
      Y. Lin, L. Wang, J. Dang, S. Li, and C. Ding.
    • 学会等名
      IEEE-ICASSP
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [学会発表] Spectrograms Fusion with Minimum Difference Masks Estimation for Monaural Speech Dereverberation.2020

    • 著者名/発表者名
      H. Shi, L. Wang, M. Ge, S. Li, and J. Dang.
    • 学会等名
      IEEE-ICASSP
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] End-to-End Articulatory Attribute Modeling for Low-resource Multilingual Speech Recognition,2020

    • 著者名/発表者名
      S. Li, C. Ding, X. Lu, P. Shen and H. Kawai,
    • 学会等名
      Acoustical Society of Japan, spring, 2020.
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] Joint Training End-to-End Systems for Speech and Speaker Recognition with Speaker Attributes,2020

    • 著者名/発表者名
      S. Li, X. Lu, R. Dabre, P. Shen and H. Kawai,
    • 学会等名
      Acoustical Society of Japan, spring, 2020.
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] Improvement of x-vector for short utterance spoken language identification,2020

    • 著者名/発表者名
      P. Shen, X. Lu, K. Sugiura, S. Li, H. Kawai,
    • 学会等名
      Acoustical Society of Japan, spring, 2020.
    • 関連する報告書
      2019 実施状況報告書
  • [図書] Automatic speech recognition2020

    • 著者名/発表者名
      X. Lu, S. Li, M. Fujimoto
    • 総ページ数
      18
    • 出版者
      Springer Singapore
    • ISBN
      9789811505959
    • 関連する報告書
      2019 実施状況報告書
  • [備考] publication information on DBLP

    • URL

      https://dblp.dagstuhl.de/pid/23/3439-10.html

    • 関連する報告書
      2020 実績報告書
  • [備考] Google scholar homepage

    • URL

      https://scholar.google.com/citations?hl=en&user=zHAhs0IAAAAJ

    • 関連する報告書
      2020 実績報告書
  • [備考] researchmap homepage

    • URL

      https://researchmap.jp/listen

    • 関連する報告書
      2020 実績報告書
  • [備考] NICT researcher's homepage

    • URL

      https://ast-astrec.nict.go.jp/aboutus/member/sheng-li/index.html

    • 関連する報告書
      2020 実績報告書
  • [備考] researchgage researcher's homepage

    • URL

      https://www.researchgate.net/profile/Sheng-Li-60

    • 関連する報告書
      2020 実績報告書
  • [産業財産権] 推論器および推論器の学習方法2020

    • 発明者名
      李勝、ルーシュガン、河井恒
    • 権利者名
      国立研究開発法人情報通信研究機構
    • 産業財産権種類
      特許
    • 産業財産権番号
      2020-059962
    • 出願年月日
      2020
    • 関連する報告書
      2019 実施状況報告書
  • [産業財産権] 推論器、推論プログラムおよび学習方法2019

    • 発明者名
      李勝、 ルーシュガン、 丁塵辰、 河原達也、 河井恒
    • 権利者名
      国立研究開発法人情報通信研究機構
    • 産業財産権種類
      特許
    • 産業財産権番号
      2019-163555
    • 出願年月日
      2019
    • 関連する報告書
      2019 実施状況報告書
  • [産業財産権] 推論器、学習方法および学習プログラム2019

    • 発明者名
      李勝、 ルーシュガン、 ダブレラジ、 河井恒
    • 権利者名
      国立研究開発法人情報通信研究機構
    • 産業財産権種類
      特許
    • 産業財産権番号
      2019-051008
    • 出願年月日
      2019
    • 関連する報告書
      2019 実施状況報告書
  • [産業財産権] 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム2019

    • 発明者名
      沈 鵬, ルー シュガン , 李 勝 , 河井 恒
    • 権利者名
      国立研究開発法人情報通信研究機構
    • 産業財産権種類
      特許
    • 産業財産権番号
      2019-086005
    • 出願年月日
      2019
    • 取得年月日
      2020
    • 関連する報告書
      2019 実施状況報告書
  • [学会・シンポジウム開催] Odyssey2020 The Speaker and Language Recognition Workshop2020

    • 関連する報告書
      2019 実施状況報告書
  • [学会・シンポジウム開催] ICASSP20202020

    • 関連する報告書
      2019 実施状況報告書
  • [学会・シンポジウム開催] ICME20202020

    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2019-09-03   更新日: 2022-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi