• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Developing Low-Resource Multilingual Machine Speech Chain for Breaking Language Barriers

Research Project

Project/Area Number 21H03467
Allocation TypeSingle-year Grants
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

SAKTI Sakriani  北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00395005)

Co-Investigator(Kenkyū-buntansha) 中村 哲  奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
Project Period (FY) 2021-04-01 – 2026-03-31
Keywords低資源音声技術 / 多言語音声認識 / 多言語音声合成 / 音声翻訳 / Machine Speech Chain
Outline of Annual Research Achievements

新型コロナ感染等による危機管理のグローバル化や、大型国際イベントの開催など、海外からの居住者および観光客との言葉の壁は深刻な問題となっている。いくつかの音声翻訳サービスが実用化されているが、高精度の翻訳性能を実現するために、広範な音声と対応する書き起こしデータを使用する教師あり学習ディープラーニングに基づいた音声翻訳の開発が必須である。本研究では、人間の言語習得プロセス、特にSpeech Chain メカニズムに基づいて、多言語の言語習得のための新しいディープラーニングの教師なしおよび半教師あり学習メカニズムを提案する。R4年度は、課題3:多言語Machine Speech Chainフレームワーク「話しながら聞いて多言語を学ぶ」(オフライン半教師あり学習)の開発を中心とした。その後、課題4:多言語Machine Speech Chainフレームワークの改善とリアルタイム学習(オフラインとオンライン学習)の開発、及び課題5:多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習(オンライン学習)の開発も始めた。インドネシアの大学とも連携し、インドネシアのデータの音声とテキストを収集した。合計で、4つの査読付きジャーナル、4つの査読付き国際会議論文、および 6つの招待講演を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

R3年度と同じ、パートタイムの学生を何人か雇って、リソースの少ない言語の音声とテキストのデータを自分たちで収集して分析することを計画した。 しかし、COVIDの大流行のため、それを行うのは困難だった。 ただし、利用可能なデータを購入し、音声録音会社を通じてデータを収集することはできたし、多言語MachineSpeech Chainフレームワークに関してはいくつかの言語と感情のための機械音声チェーンを開発した。また、インドネシアの大学とも連携し、インドネシアのデータの音声とテキストを収集し、国際会議に論文を投稿した。 リアルタイム学習(オンライン学習)MachineSpeech Chainの研究に関連して、リアルタイムで動的に状況に適応できる機械の発話連鎖フレームワークを完成させることに成功した。 この作品は、トップ ジャーナル (IEEE Access および IEEE/ACM Transactions on Audio, Speech, and Language Processing) に掲載されていた。 自己Lifelong学習MachineSpeech Chainの研究に関連して、私たちはプロの通訳者と協力して彼らの生涯学習を分析することを始めた。研究代表者は、いくつかの国際ワークショップで基調講演を行うよう招待された。

Strategy for Future Research Activity

R5年度で以下の課題を構成して取り組む。
課題3:多言語Machine Speech Chainフレームワーク「話しながら聞いて多言語を学ぶ」(オフライン半教師あり学習)の開発に関しては、実験を継続する。特に、新しい教師なし機械Machine Speech Chainの可能性を調査する。
課題4:多言語Machine Speech Chainフレームワークの改善とリアルタイム学習(オフラインとオンライン学習)の開発に関しては、インクリメンタルMachine Speech Chainの実験を継続する。特にMachine Speech Chainの性能を改善し、さらにより多くの言語を調査する。
課題5:多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習(オンライン学習)に関しては、実験を継続する。

  • Research Products

    (20 results)

All 2023 2022 Other

All Int'l Joint Research (1 results) Journal Article (9 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 8 results,  Open Access: 5 results) Presentation (10 results) (of which Int'l Joint Research: 8 results,  Invited: 6 results)

  • [Int'l Joint Research] Bandung Institute of Technology/University of Indonesia(インドネシア)

    • Country Name
      INDONESIA
    • Counterpart Institution
      Bandung Institute of Technology/University of Indonesia
  • [Journal Article] Japanese Neural Incremental Text-to-Speech Synthesis Framework With an Accent Phrase Input2023

    • Author(s)
      Yanagita Tomoya、Sakti Sakriani、Nakamura Satoshi
    • Journal Title

      IEEE Access

      Volume: 11 Pages: 22355~22363

    • DOI

      10.1109/ACCESS.2023.3251657

    • Peer Reviewed / Open Access
  • [Journal Article] NIX-TTS: Lightweight and End-to-End Text-to-Speech Via Module-Wise Distillation2023

    • Author(s)
      Chevi Rendi、Prasojo Radityo Eko、Aji Alham Fikri、Tjandra Andros、Sakti Sakriani
    • Journal Title

      Proceeding of the IEEE Spoken Language Technology Workshop (SLT) 2023

      Volume: 1 Pages: 970~976

    • DOI

      10.1109/SLT54892.2023.10023322

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Language technology impact on linguistic diversity2023

    • Author(s)
      Sakti Sakriani
    • Journal Title

      In Book: "State of the art of indigenous languages in research: a collection of selected research papers," UNESCO Open Access Repository

      Volume: 1 Pages: 341~348

    • Peer Reviewed / Open Access
  • [Journal Article] Cyclic Partially-aligned Transformer for Visually Connected Speech-to-text Mapping2023

    • Author(s)
      Johanes Effendi、Sakti Sakriani、Nakamura Satoshi
    • Journal Title

      Proceeding of the Acoustical Society of Japan (ASJ)

      Volume: 1 Pages: 1~2

  • [Journal Article] 日本語逐次音声合成における合成単位2022

    • Author(s)
      柳田 智也、サクテイ サクリアニ、中村 哲
    • Journal Title

      情報処理学会論文誌

      Volume: 63 Pages: 1149~1158

    • DOI

      10.20729/00217617

    • Peer Reviewed
  • [Journal Article] A Machine Speech Chain Approach for Dynamically Adaptive Lombard TTS in Static and Dynamic Noise Environments2022

    • Author(s)
      Novitasari Sashi、Sakti Sakriani、Nakamura Satoshi
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 30 Pages: 2673~2688

    • DOI

      10.1109/TASLP.2022.3196879

    • Peer Reviewed / Open Access
  • [Journal Article] Tackling multiple object tracking with complicated motions ? Re-designing the integration of motion and appearance2022

    • Author(s)
      Yang Fan、Wang Zheng、Wu Yang、Sakti Sakriani、Nakamura Satoshi
    • Journal Title

      Image and Vision Computing

      Volume: 124 Pages: 104514~104514

    • DOI

      10.1016/j.imavis.2022.104514

    • Peer Reviewed / Open Access
  • [Journal Article] Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing2022

    • Author(s)
      Qi Heli、Novitasari Sashi、Sakti Sakriani、Nakamura Satoshi
    • Journal Title

      Proceeding of the INTERSPEECH 2022

      Volume: 1 Pages: 3413~3417

    • DOI

      10.21437/Interspeech.2022-11169

    • Peer Reviewed
  • [Journal Article] NAIST Simultaneous Speech-to-Text Translation System for IWSLT 20222022

    • Author(s)
      Fukuda Ryo、Ko Yuka、Kano Yasumasa、Doi Kosuke、Tokuyama Hirotaka、Sakti Sakriani、Sudoh Katsuhito、Nakamura Satoshi
    • Journal Title

      Proceeding of the International Conference on Spoken Language Translation (IWSLT)

      Volume: 1 Pages: 286~292

    • DOI

      10.18653/v1/2022.iwslt-1.25

    • Peer Reviewed
  • [Presentation] Communicative Intelligent Systems towards Society 5.02023

    • Author(s)
      Sakti Sakriani
    • Organizer
      Sarasehan Nasional Pendidikan Tinggi Informatika dan Pemberian Tribute kepada Penggagas dan Pendidik Senior Teknik Informatika ITB
    • Invited
  • [Presentation] Language Technology for All: From the indigenous community perspectives2023

    • Author(s)
      Sakti Sakriani
    • Organizer
      "Data, Technologies and Benchmarks for the Spoken Languages of the World" Meeting of IEEE SLT
    • Int'l Joint Research / Invited
  • [Presentation] NIX-TTS: Lightweight and End-to-End Text-to-Speech Via Module-Wise Distillation2023

    • Author(s)
      Chevi Rendi、Prasojo Radityo Eko、Aji Alham Fikri、Tjandra Andros、Sakti Sakriani
    • Organizer
      IEEE Spoken Language Technology Workshop (SLT) 2023
    • Int'l Joint Research
  • [Presentation] Cyclic Partially-aligned Transformer for Visually Connected Speech-to-text Mapping2023

    • Author(s)
      Effendi Johanes、Sakti Sakriani、Nakamura Satoshi
    • Organizer
      Acoustical Society of Japan (ASJ)
  • [Presentation] Language Technology for All: From the technology and indigenous community perspectives2022

    • Author(s)
      Sakti Sakriani
    • Organizer
      the 25th Conference of the Oriental COCOSDA
    • Int'l Joint Research / Invited
  • [Presentation] Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Processing with Machine Speech Chain2022

    • Author(s)
      Sakti Sakriani
    • Organizer
      "Data Collection, Bias, and Ethical Concerns in Speech Processing," Speech for Social Good - INTERSPEECH Satellite Workshop
    • Int'l Joint Research / Invited
  • [Presentation] Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Processing with Machine Speech Chain2022

    • Author(s)
      Sakti Sakriani
    • Organizer
      HiTZ Language Technology Webinar
    • Int'l Joint Research / Invited
  • [Presentation] Data Collection, Bias, and Ethical Concerns in Speech Processing2022

    • Author(s)
      Sakti Sakriani
    • Organizer
      Speech for Social Good - INTERSPEECH Satellite Workshop
    • Int'l Joint Research / Invited
  • [Presentation] Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing2022

    • Author(s)
      Qi Heli、Novitasari Sashi、Sakti Sakriani、Nakamura Satoshi
    • Organizer
      INTERSPEECH 2022
    • Int'l Joint Research
  • [Presentation] NAIST Simultaneous Speech-to-Text Translation System for IWSLT 20222022

    • Author(s)
      Fukuda Ryo、Ko Yuka、Kano Yasumasa、Doi Kosuke、Tokuyama Hirotaka、Sakti Sakriani、Sudoh Katsuhito、Nakamura Satoshi
    • Organizer
      International Conference on Spoken Language Translation (IWSLT)
    • Int'l Joint Research

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi