• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

Developing Low-Resource Multilingual Machine Speech Chain for Breaking Language Barriers

Research Project

Project/Area Number 21H03467
Allocation TypeSingle-year Grants
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

SAKTI Sakriani  北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00395005)

Co-Investigator(Kenkyū-buntansha) 中村 哲  奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
Project Period (FY) 2021-04-01 – 2026-03-31
Keywords低資源音声技術 / 多言語音声認識 / 多言語音声合成 / 音声翻訳 / Machine Speech Chain
Outline of Annual Research Achievements

新型コロナ感染等による危機管理のグローバル化や、大型国際イベントの開催など、海外からの居住者および観光客との言葉の壁は深刻な問題となっている。いくつかの音声翻訳サービスが実用化されているが、高精度の翻訳性能を実現するために、広範な音声と対応する書き起こしデータを使用する教師あり学習ディープラーニングに基づいた音声翻訳の開発が必須である。本研究では、人間の言語習得プロセス、特にSpeech Chain メカニズムに基づいて、多言語の言語習得のための新しいディープラーニングの教師なしおよび半教師あり学習メカニズムを提案する。
R3年度では、(課題1)人間の言語処理および認知に関する文献調査、(課題2)リソースの少ない言語の音声およびテキストデータの収集、(課題3)多言語Machine Speech Chainフレームワークの開発を中心に行った。データ収集に関しては、25の低リソース言語で音声とテキストのデータを収集した。多言語Machine Speech Chainフレームワークに関しては、ジャワ語、スンダ語、バリ語、バタク語などのインドネシアの民族言語の音声認識と合成の開発に成功した。 また、ジャワ語とアフリカ語(Mboshi)の言語でDPGMMとDPGMM-RNNハイブリッドモデルを使用した低リソースASRについても調査した。また、来年の目標であるリアルタイム学習Machine Speech Chainフレームワークのインクリメンタル音声認識と音声合成の作業も開始した。合計で、4つの査読付きジャーナル、5つの査読付き国際会議論文、および3つの国内会議論文の発行に成功した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

パートタイムの学生を何人か雇って、リソースの少ない言語の音声とテキストのデータを自分たちで収集して分析することを計画した。 しかし、COVIDの大流行のため、それを行うのは困難だった。 ただし、利用可能なデータを購入し、音声録音会社を通じてデータを収集することはできた。 結果として、リソースの少ない25の言語から音声およびテキストデータを収集することに成功した。また、多くの言語用の多言語Machine Speech Chainは開発していないが、一部の低リソース言語用の音声認識とMachine Speech Chainの構築に成功した。さらに、来年の目標であるリアルタイム学習機械音声チェーンフレームワークの増分音声認識と音声合成の作業も開始した。トップジャーナルやトップ国際会議での出版も達成できた。研究代表者は、いくつかの国際ワークショップで基調講演を行うよう招待された。

Strategy for Future Research Activity

R4年度で以下の課題を構成して取り組む。
課題3:多言語Machine Speech Chainフレームワーク「話しながら聞いて多言語を学ぶ」(オフライン半教師あり学習)の開発に関しては、実験を継続する。特にMachine Speech Chainの性能を改善し、さらにより多くの言語を調査する。
課題4:多言語Machine Speech Chainフレームワークの改善、リアルタイム学習(オフラインとオンライン学習)の開発に関しては、インクリメンタルMachine Speech Chainの開発を継続する。
課題5:多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習(オンライン学習)を開発する方法の調査を開始する。

  • Research Products

    (23 results)

All 2022 2021

All Journal Article (9 results) (of which Peer Reviewed: 9 results,  Open Access: 6 results) Presentation (14 results) (of which Int'l Joint Research: 11 results,  Invited: 6 results)

  • [Journal Article] Modeling Unsupervised Empirical Adaptation by DPGMM and DPGMM-RNN Hybrid Model to Extract Perceptual Features for Low-Resource ASR2022

    • Author(s)
      Bin Wu, Sakriani Sakti, Zhang Jinsong, Satoshi Nakamura
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 30 Pages: 901~916

    • DOI

      10.1109/TASLP.2022.3150220

    • Peer Reviewed / Open Access
  • [Journal Article] Neural Incremental Speech Recognition Toward Real-Time Machine Speech Translation2021

    • Author(s)
      Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E104.D Pages: 2195~2208

    • DOI

      10.1587/transinf.2021EDP7014

    • Peer Reviewed
  • [Journal Article] Code-Switching ASR and TTS Using Semisupervised Learning with Machine Speech Chain2021

    • Author(s)
      Sahoko Nakayama, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E104.D Pages: 1661~1677

    • DOI

      10.1587/transinf.2021EDP7005

    • Peer Reviewed
  • [Journal Article] Multimodal Chain: Cross-Modal Collaboration Through Listening, Speaking, and Visualizing2021

    • Author(s)
      Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      IEEE Access

      Volume: 9 Pages: 70286~70299

    • DOI

      10.1109/ACCESS.2021.3077886

    • Peer Reviewed / Open Access
  • [Journal Article] Using Local Phrase Dependency Structure Information in Neural Sequence-to-Sequence Speech Synthesis2021

    • Author(s)
      Nobuyoshi Kaiki, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceeding of the Oriental COCOSDA 2021

      Volume: 1 Pages: 206-211

    • DOI

      10.1109/O-COCOSDA202152914.2021.9660456

    • Peer Reviewed
  • [Journal Article] Transcribing Paralinguistic Acoustic Cues to Target Language Text in Transformer-Based Speech-to-Text Translation2021

    • Author(s)
      Hirotaka Tokuyama, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura
    • Journal Title

      Proceeding of the INTERSPEECH 2021

      Volume: 1 Pages: 2262-2266

    • DOI

      10.21437/Interspeech.2021-1020

    • Peer Reviewed / Open Access
  • [Journal Article] Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned Transformer2021

    • Author(s)
      Johanes Effendi, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceeding of the INTERSPEECH 2021

      Volume: 1 Pages: 2257-2261

    • DOI

      10.21437/Interspeech.2021-970

    • Peer Reviewed / Open Access
  • [Journal Article] Unsupervised Neural-Based Graph Clustering for Variable-Length Speech Representation Discovery of Zero-Resource Languages2021

    • Author(s)
      Shun Takahashi, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceeding of the INTERSPEECH 2021

      Volume: 1 Pages: 1559-1563

    • DOI

      10.21437/Interspeech.2021-1340

    • Peer Reviewed / Open Access
  • [Journal Article] Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak Louder2021

    • Author(s)
      Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceeding of the INTERSPEECH 2021

      Volume: 1 Pages: 4124-4128

    • DOI

      10.21437/Interspeech.2021-946

    • Peer Reviewed / Open Access
  • [Presentation] Self-Adaptive Machine Speech Chain in Noisy Environment2022

    • Author(s)
      Sakriani Sakti
    • Organizer
      the AAAI workshop on Self-supervised Learning for Audio and Speech Processing
    • Int'l Joint Research / Invited
  • [Presentation] Using Local Phrase Dependency Structure Information in Neural Sequence-to-Sequence Speech Synthesis2021

    • Author(s)
      Nobuyoshi Kaiki, Sakriani Sakti, Satoshi Nakamura
    • Organizer
      Oriental COCOSDA 2021
    • Int'l Joint Research
  • [Presentation] Transcribing Paralinguistic Acoustic Cues to Target Language Text in Transformer-Based Speech-to-Text Translation2021

    • Author(s)
      Hirotaka Tokuyama, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura
    • Organizer
      INTERSPEECH 2021
    • Int'l Joint Research
  • [Presentation] Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned Transformer2021

    • Author(s)
      Johanes Effendi, Sakriani Sakti, Satoshi Nakamura
    • Organizer
      INTERSPEECH 2021
    • Int'l Joint Research
  • [Presentation] Unsupervised Neural-Based Graph Clustering for Variable-Length Speech Representation Discovery of Zero-Resource Languages2021

    • Author(s)
      Shun Takahashi, Sakriani Sakti, Satoshi Nakamura
    • Organizer
      INTERSPEECH 2021
    • Int'l Joint Research
  • [Presentation] Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak Louder2021

    • Author(s)
      Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
    • Organizer
      INTERSPEECH 2021
    • Int'l Joint Research
  • [Presentation] Improving Intelligibility of Synthesized Speech in Noisy Condition with Dynamically Adaptive Machine Speech Chain2021

    • Author(s)
      Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
    • Organizer
      SIG-SLP 2021
  • [Presentation] ゼロ資源状況におけるサブワード単位の獲得にむけて グラフニューラルネットワークを用いた手法2021

    • Author(s)
      高橋 舜, サクティ サクリアニ, 中村 哲
    • Organizer
      2021年度 人工知能学会全国大会 (第35回)
  • [Presentation] 局所的な句構造の情報を用いた ニューラル音声合成2021

    • Author(s)
      海木 延佳, サクティ サクリアニ, 中村 哲
    • Organizer
      音学シンポジウム2021
  • [Presentation] Machine Speech Chain: A Deep Learning Approach for Training and Inference through Feedback Loop2021

    • Author(s)
      Sakriani Sakti
    • Organizer
      IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
    • Int'l Joint Research / Invited
  • [Presentation] Machine Speech Chain: A Deep Learning Approach for Modeling Human Speech Perception and Production with Auditory Feedback Mechanism2021

    • Author(s)
      Sakriani Sakti
    • Organizer
      the ITB Seminar
    • Int'l Joint Research / Invited
  • [Presentation] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021

    • Author(s)
      Sakriani Sakti
    • Organizer
      the SoCS International Seminar
    • Int'l Joint Research / Invited
  • [Presentation] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021

    • Author(s)
      Sakriani Sakti
    • Organizer
      International Conference of Artificial Intelligence and Speech Technology (AIST-3)
    • Int'l Joint Research / Invited
  • [Presentation] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021

    • Author(s)
      Sakriani Sakti
    • Organizer
      YRRSDS
    • Int'l Joint Research / Invited

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi