• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

M3OLR: Towards Effective Multilingual, Multimodal and Multitask Oriental Low-resourced Language Speech Recognition

研究課題

研究課題/領域番号 23K11227
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分61030:知能情報学関連
研究機関東京科学大学 (2024)
国立研究開発法人情報通信研究機構 (2023)

研究代表者

李 勝  東京科学大学, 工学院, 助教 (70840940)

研究分担者 李 吉屹  北海道大学, 情報科学研究院, 准教授 (30726667)
チョ シンキ  京都大学, 情報学研究科, 特定准教授 (70784891)
研究期間 (年度) 2023-04-01 – 2026-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2025年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワードspeech recognition / large language model / multilingual / multimodal / multitask / low-resource / Multitask / Multimodal / Multilingual / Low-resource / quality estimation / federated learning
研究開始時の研究の概要

Cross-modality, general purposed multitask model, and cross-lingual communication ability are three key features of next-generation artificial intelligence. This research focuses on advancing these three features simultaneously in the speech recognition (ASR) system to prove:
(1) Can rich-resourced language information aid the understanding of low-resource languages?
(2) Can other modal information aid the understanding of low-resource languages?
(3) Can additional information from other tasks aid in understanding low-resource languages?

研究実績の概要

This research project aims to solve the classic low-resource problem of speech recognition area and search for solutions from natural language processing (NLP), multimodal modeling, and big data society. Our discoveries appeared/or were submitted not only to traditional speech conferences (ICASSP/interspeech) and TASLP journals but also to NLP top conferences (ACL). I also devoted myself to joining LLM-jp's finetuning LLM challenge and estimating Japanese students' English speaking ability using LLM.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

The world goes into the LLM era. This FY2024 year's research focus is low-resource conditioned LLM to improve speech recognition. For this research, we tried continual learning, in-contextual learning, and few-shot/zero-shot learning. 1. continual learning can solve the catastrophic forgetting problem, especially when frequent finetuning with new languages. We used that for low-resourced multilingual speech recognition, as reported in APSIPA ASC2024. In ICASSP2024, we extended this algorithm to different tasks, from speech recognition to emotion recognition. 2. for in-contextual learning/zero-shot learning, we use LLM to estimate Japanese student English ability in Cefr-J symposium2025. 3. For few-shot learning, we used the LoRA finetuned Llama-7B model to correct 20 language speech recognition results and achieved a leap forward in accuracy; we report it in Interspeech2024. 4. inspired by the multimodal area, we also introduced graph-based data structures to bridge the speech recognition system and LLM in APSIPA ASC2024.

今後の研究の推進方策

In FY2025, we will continue to work on LLM-based methods for multilingual, multimodal, and multitask methods. Recent progress of LLM will be incorporated into our research. We will also follow recent progress in embodied AI and social robotics.

報告書

(2件)
  • 2024 実施状況報告書
  • 2023 実施状況報告書
  • 研究成果

    (40件)

すべて 2025 2024 2023 その他

すべて 国際共同研究 (3件) 雑誌論文 (4件) (うち国際共著 3件、 査読あり 4件、 オープンアクセス 2件) 学会発表 (25件) (うち国際学会 20件、 招待講演 3件) 備考 (6件) 学会・シンポジウム開催 (2件)

  • [国際共同研究] Nanyang Technological University(シンガポール)

    • 関連する報告書
      2024 実施状況報告書
  • [国際共同研究] National Taiwan University(その他の国・地域)

    • 関連する報告書
      2024 実施状況報告書
  • [国際共同研究] Nanyang Technological University(シンガポール)

    • 関連する報告書
      2023 実施状況報告書
  • [雑誌論文] Phantom in the opera: adversarial music attack for robot dialogue system2024

    • 著者名/発表者名
      Li Sheng、Li Jiyi、Cao Yang
    • 雑誌名

      Frontiers in Computer Science, 15 February 2024

      巻: 6 ページ: 1-9

    • DOI

      10.3389/fcomp.2024.1355975

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Robust voice activity detection using an auditory-inspired masked modulation encoder based convolutional attention network2024

    • 著者名/発表者名
      Li Nan、Wang Longbiao、Ge Meng、Unoki Masashi、Li Sheng、Dang Jianwu
    • 雑誌名

      Speech Communication

      巻: 157 ページ: 103024-103024

    • DOI

      10.1016/j.specom.2023.103024

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / 国際共著
  • [雑誌論文] Disordered speech recognition considering low resources and abnormal articulation2023

    • 著者名/発表者名
      Lin Yuqin、Dang Jianwu、Wang Longbiao、Li Sheng、Ding Chenchen
    • 雑誌名

      Speech Communication

      巻: 155 ページ: 103002-103002

    • DOI

      10.1016/j.specom.2023.103002

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / 国際共著
  • [雑誌論文] Finetuning Pretrained Model with Embedding of Domain and Language Information for ASR of Very Low-Resource Settings2023

    • 著者名/発表者名
      Soky Kak、Li Sheng、Chu Chenhui、Kawahara Tatsuya
    • 雑誌名

      International Journal of Asian Language Processing

      巻: 33 号: 04 ページ: 2350024-2350024

    • DOI

      10.1142/s2717554523500248

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] Extending Whisper for Emotion Prediction Using Word-level Pseudo Labels2025

    • 著者名/発表者名
      Chin Yuen Kwok, Sheng Li, Jia Qi Yip, Chenhui Chu, Tatsuya Kawahara, Eng Siong Chng
    • 学会等名
      in Proc. IEEE-ICASSP, pp. 1-5, 2025.
    • 関連する報告書
      2024 実施状況報告書
    • 国際学会
  • [学会発表] Similarity-based accent recognition with continuous and discrete self-supervised speech representations2025

    • 著者名/発表者名
      Jun-You Wang, Sheng Li, Li-An Lu, Sydney Chia-Chun Kao, Jyh-Shing Roger Jang
    • 学会等名
      in Proc. IEEE-ICASSP, pp. 1-5, 2025.
    • 関連する報告書
      2024 実施状況報告書
    • 国際学会
  • [学会発表] Enhancing Multi-Step Reasoning in Language Models with Synthetic Math Data Augmentation (HP_Fighters team)2025

    • 著者名/発表者名
      Jieqing Mei, Jiyi Li, Qianying Liu, Sheng Li
    • 学会等名
      NLP2025 ワークショップ:大規模言語モデルのファインチューニング技術と評価
    • 関連する報告書
      2024 実施状況報告書
    • 招待講演
  • [学会発表] 大規模言語モデルを用いた英語学習者発話のCEFR-Jレベル推定2025

    • 著者名/発表者名
      篠﨑隆宏, 佐藤秋太朗, 李勝
    • 学会等名
      CEFR-J 2025 International Symposium
    • 関連する報告書
      2024 実施状況報告書
    • 招待講演
  • [学会発表] Automatic Post-Editing of Speech Recognition System Output Using Large Language Models2024

    • 著者名/発表者名
      Sheng Li, Jiyi Li, Yang Cao
    • 学会等名
      in Proc. International Conference on Database Systems for Advanced Applications (DASFAA) Workshop, pp. 178--186, 2024.
    • 関連する報告書
      2024 実施状況報告書
    • 国際学会
  • [学会発表] Investigating ASR Error Correction with Large Language Model and Multilingual 1-best Hypotheses.2024

    • 著者名/発表者名
      Sheng Li, Chen Chen, Chin Yuen Kwok, Chenhui Chu, Eng Siong Chng, Hisashi Kawai
    • 学会等名
      in Proc. INTERSPEECH, pp. 1315--1319, 2024.
    • 関連する報告書
      2024 実施状況報告書
    • 国際学会
  • [学会発表] Low-resource Language Adaptation with Ensemble of PEFT Approaches2024

    • 著者名/発表者名
      Chin Yuen Kwok, Sheng Li, Jia Qi Yip, Eng Siong Chng
    • 学会等名
      in Proc. APSIPA ASC, pp. 1--6, 2024.
    • 関連する報告書
      2024 実施状況報告書
    • 国際学会
  • [学会発表] LLM as decoder: Investigating Lattice-based Speech Recognition Hypotheses Rescoring Using LLM,2024

    • 著者名/発表者名
      Sheng Li, Yuka Ko, Akinori Ito
    • 学会等名
      in Proc. APSIPA ASC, pp. 1--5, 2024.
    • 関連する報告書
      2024 実施状況報告書
    • 国際学会
  • [学会発表] Data Selection using Spoken Language Identification for Low-Resource and Zero-Resource Speech Recognition2024

    • 著者名/発表者名
      Jianan Chen, Chenhui Chu, Sheng Li, Tatsuya Kawahara
    • 学会等名
      in Proc. APSIPA ASC, pp. 1--6, 2024.
    • 関連する報告書
      2024 実施状況報告書
    • 国際学会
  • [学会発表] Investigating effective methods for combining large language model with speech recognition system2024

    • 著者名/発表者名
      李 勝, 楊 正東, 周 汪勁, Chenhui Chu, 河井 恒
    • 学会等名
      日本音響学会第151回(2024年春季)研究発表会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] Combining Large Language Model with Speech Recognition System in Low-resource Settings2024

    • 著者名/発表者名
      李 勝, 楊 正東, 周 汪勁, Chenhui Chu, Chen Chen, Chng Eng Siong, 河井 恒
    • 学会等名
      言語処理学会第30回年次大会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] Cross-lingual Mapping for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition2024

    • 著者名/発表者名
      Zhengdong Yang, Qianying Liu, Sheng Li, Chenhui Chu, Fei Cheng, Sadao Kurohashi
    • 学会等名
      日本音響学会第 150 回(2023 年秋季)研究発表会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction2024

    • 著者名/発表者名
      Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li, Raj Dabre, Yi Zhao, Tatsuya Kawahara
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2024
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] LE-SSL-MOS: Self-Supervised Learning MOS Prediction with Listener Enhancement2023

    • 著者名/発表者名
      Zili Qi, Xinhui Hu, Wangjin Zhou, Sheng Li, Hao Wu, Jian Lu, Xinkang Xu
    • 学会等名
      IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] FedCPC: An Effective Federated Contrastive Learning Method for Privacy Preserving Early-Stage Alzheimers Speech Detection2023

    • 著者名/発表者名
      Wenqing Wei, Zhengdong Yang, Yuan Gao, Jiyi Li, Chenhui Chu, Shogo Okada, Sheng Li
    • 学会等名
      IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] KyotoMOS: An Automatic MOS Scoring System for Speech Synthesis2023

    • 著者名/発表者名
      Wangjin Zhou, Zhengdong Yang, Sheng Li, Chenhui Chu
    • 学会等名
      ACM Multimedia Asia Workshops 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System2023

    • 著者名/発表者名
      Xiaojiao Chen, Sheng Li, Jiyi Li, Yang Cao, Hao Huang, Liang He
    • 学会等名
      ACM Multimedia Asia
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Reprogramming Self-supervised Learning-based Speech Representations for Speaker Anonymization2023

    • 著者名/発表者名
      Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He
    • 学会等名
      ACM Multimedia Asia
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Correction while Recognition: Combining Pretrained Language Model for Taiwan-Accented Speech Recognition2023

    • 著者名/発表者名
      Sheng Li, Jiyi Li
    • 学会等名
      Artificial Neural Networks and Machine Learning (ICANN) 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] The Kyoto Speech-to-Speech Translation System for IWSLT 20232023

    • 著者名/発表者名
      Zhengdong Yang, Shuichiro Shimizu, Wangjin Zhou, Sheng Li, Chenhui Chu
    • 学会等名
      International Conference on Spoken Language Translation (IWSLT) 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Dialogue State Tracking with Sparse Local Slot Attention2023

    • 著者名/発表者名
      Longfei Yang, Jiyi Li, Sheng Li, Takahiro Shinozaki
    • 学会等名
      ACL 2023 Workshop on NLP for Conversational AI
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Multi-Domain Dialogue State Tracking with Disentangled Domain-Slot Attention2023

    • 著者名/発表者名
      Longfei Yang, Jiyi Li, Sheng Li, Takahiro Shinozaki
    • 学会等名
      In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023): Findings
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Towards Speech Dialogue Translation Mediating Speakers of Different Languages2023

    • 著者名/発表者名
      Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi
    • 学会等名
      In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023): Findings
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Hierarchical Softmax for End-To-End Low-Resource Multilingual Speech Recognition2023

    • 著者名/発表者名
      Qianying Liu Zhuo Gong Zhengdong Yang Yuhang Yang Sheng Li Chenchen Ding Nobuaki Minematsu Hao Huang Fei Cheng Chenhui Chu Sadao Kurohashi
    • 学会等名
      2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Self-Supervised Learning MOS Prediction with Listener Enhancement2023

    • 著者名/発表者名
      Sheng Li
    • 学会等名
      VoiceMOS mini workshop
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会 / 招待講演
  • [備考] 情報通信研究機構の研究成果として、各年ごとの発表論文を日付順で紹介します。

    • URL

      https://oca-pub.nict.go.jp/

    • 関連する報告書
      2024 実施状況報告書 2023 実施状況報告書
  • [備考] google scholar of Sheng Li

    • URL

      https://scholar.google.com/citations?view_op=list_works&hl=en&hl=en&user=zHAhs0IAAAAJ

    • 関連する報告書
      2024 実施状況報告書
  • [備考] reseachmap homepage of Sheng Li

    • URL

      https://researchmap.jp/listen

    • 関連する報告書
      2024 実施状況報告書 2023 実施状況報告書
  • [備考] DB of Institute of Science Tokyo

    • URL

      https://search.star.titech.ac.jp/titech-ss/pursuer.act?event=outside&key_t2r2Rid=CTT100930321&lang=jp

    • 関連する報告書
      2024 実施状況報告書
  • [備考] google scholar of Sheng Li

    • URL

      https://scholar.google.com/citations?user=zHAhs0IAAAAJ&hl=en

    • 関連する報告書
      2023 実施状況報告書
  • [備考] Lab homepage of Sheng Li

    • URL

      https://ast-astrec.nict.go.jp/member/sheng-li/index.html

    • 関連する報告書
      2023 実施状況報告書
  • [学会・シンポジウム開催] ACM Multimedia Asia 2024 workshop: Multimodal, Multilingual and Multitask Modeling Technologies for Oriental Languages (M3Oriental)2024

    • 関連する報告書
      2024 実施状況報告書
  • [学会・シンポジウム開催] ACM Multimedia Asia 2023 workshop: Multimodal, Multilingual and Multitask Modeling Technologies for Oriental Languages (M3Oriental)2023

    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2023-04-13   更新日: 2025-12-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi