2021 年度実績報告書

言語の壁を超える低資源多言語Machine Speech Chain技術の構築

研究課題

研究課題/領域番号	21H03467
配分区分	補助金
研究機関	北陸先端科学技術大学院大学
研究代表者	SAKTI Sakriani 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00395005)
研究分担者	中村哲奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
研究期間 (年度)	2021-04-01 – 2026-03-31
キーワード	低資源音声技術 / 多言語音声認識 / 多言語音声合成 / 音声翻訳 / Machine Speech Chain
研究実績の概要	新型コロナ感染等による危機管理のグローバル化や、大型国際イベントの開催など、海外からの居住者および観光客との言葉の壁は深刻な問題となっている。いくつかの音声翻訳サービスが実用化されているが、高精度の翻訳性能を実現するために、広範な音声と対応する書き起こしデータを使用する教師あり学習ディープラーニングに基づいた音声翻訳の開発が必須である。本研究では、人間の言語習得プロセス、特にSpeech Chain メカニズムに基づいて、多言語の言語習得のための新しいディープラーニングの教師なしおよび半教師あり学習メカニズムを提案する。 R3年度では、（課題１）人間の言語処理および認知に関する文献調査、（課題2）リソースの少ない言語の音声およびテキストデータの収集、（課題3）多言語Machine Speech Chainフレームワークの開発を中心に行った。データ収集に関しては、25の低リソース言語で音声とテキストのデータを収集した。多言語Machine Speech Chainフレームワークに関しては、ジャワ語、スンダ語、バリ語、バタク語などのインドネシアの民族言語の音声認識と合成の開発に成功した。また、ジャワ語とアフリカ語（Mboshi）の言語でDPGMMとDPGMM-RNNハイブリッドモデルを使用した低リソースASRについても調査した。また、来年の目標であるリアルタイム学習Machine Speech Chainフレームワークのインクリメンタル音声認識と音声合成の作業も開始した。合計で、4つの査読付きジャーナル、5つの査読付き国際会議論文、および3つの国内会議論文の発行に成功した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由パートタイムの学生を何人か雇って、リソースの少ない言語の音声とテキストのデータを自分たちで収集して分析することを計画した。しかし、COVIDの大流行のため、それを行うのは困難だった。ただし、利用可能なデータを購入し、音声録音会社を通じてデータを収集することはできた。結果として、リソースの少ない25の言語から音声およびテキストデータを収集することに成功した。また、多くの言語用の多言語Machine Speech Chainは開発していないが、一部の低リソース言語用の音声認識とMachine Speech Chainの構築に成功した。さらに、来年の目標であるリアルタイム学習機械音声チェーンフレームワークの増分音声認識と音声合成の作業も開始した。トップジャーナルやトップ国際会議での出版も達成できた。研究代表者は、いくつかの国際ワークショップで基調講演を行うよう招待された。
今後の研究の推進方策	R4年度で以下の課題を構成して取り組む。課題3：多言語Machine Speech Chainフレームワーク「話しながら聞いて多言語を学ぶ」（オフライン半教師あり学習）の開発に関しては、実験を継続する。特にMachine Speech Chainの性能を改善し、さらにより多くの言語を調査する。課題4：多言語Machine Speech Chainフレームワークの改善、リアルタイム学習(オフラインとオンライン学習)の開発に関しては、インクリメンタルMachine Speech Chainの開発を継続する。課題5：多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習（オンライン学習)を開発する方法の調査を開始する。

研究成果
(23件)

すべて 2022 2021

すべて雑誌論文 (9件) (うち査読あり 9件、オープンアクセス 6件) 学会発表 (14件) (うち国際学会 11件、招待講演 6件)

[雑誌論文] Modeling Unsupervised Empirical Adaptation by DPGMM and DPGMM-RNN Hybrid Model to Extract Perceptual Features for Low-Resource ASR2022
- 著者名/発表者名
  Bin Wu, Sakriani Sakti, Zhang Jinsong, Satoshi Nakamura
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 30 ページ: 901～916
- DOI
  10.1109/TASLP.2022.3150220
- 査読あり / オープンアクセス
[雑誌論文] Neural Incremental Speech Recognition Toward Real-Time Machine Speech Translation2021
- 著者名/発表者名
  Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E104.D ページ: 2195～2208
- DOI
  10.1587/transinf.2021EDP7014
- 査読あり
[雑誌論文] Code-Switching ASR and TTS Using Semisupervised Learning with Machine Speech Chain2021
- 著者名/発表者名
  Sahoko Nakayama, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E104.D ページ: 1661～1677
- DOI
  10.1587/transinf.2021EDP7005
- 査読あり
[雑誌論文] Multimodal Chain: Cross-Modal Collaboration Through Listening, Speaking, and Visualizing2021
- 著者名/発表者名
  Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEEE Access
  
  巻: 9 ページ: 70286～70299
- DOI
  10.1109/ACCESS.2021.3077886
- 査読あり / オープンアクセス
[雑誌論文] Using Local Phrase Dependency Structure Information in Neural Sequence-to-Sequence Speech Synthesis2021
- 著者名/発表者名
  Nobuyoshi Kaiki, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  Proceeding of the Oriental COCOSDA 2021
  
  巻: 1 ページ: 206-211
- DOI
  10.1109/O-COCOSDA202152914.2021.9660456
- 査読あり
[雑誌論文] Transcribing Paralinguistic Acoustic Cues to Target Language Text in Transformer-Based Speech-to-Text Translation2021
- 著者名/発表者名
  Hirotaka Tokuyama, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura
- 雑誌名
  
  Proceeding of the INTERSPEECH 2021
  
  巻: 1 ページ: 2262-2266
- DOI
  10.21437/Interspeech.2021-1020
- 査読あり / オープンアクセス
[雑誌論文] Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned Transformer2021
- 著者名/発表者名
  Johanes Effendi, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  Proceeding of the INTERSPEECH 2021
  
  巻: 1 ページ: 2257-2261
- DOI
  10.21437/Interspeech.2021-970
- 査読あり / オープンアクセス
[雑誌論文] Unsupervised Neural-Based Graph Clustering for Variable-Length Speech Representation Discovery of Zero-Resource Languages2021
- 著者名/発表者名
  Shun Takahashi, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  Proceeding of the INTERSPEECH 2021
  
  巻: 1 ページ: 1559-1563
- DOI
  10.21437/Interspeech.2021-1340
- 査読あり / オープンアクセス
[雑誌論文] Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak Louder2021
- 著者名/発表者名
  Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  Proceeding of the INTERSPEECH 2021
  
  巻: 1 ページ: 4124-4128
- DOI
  10.21437/Interspeech.2021-946
- 査読あり / オープンアクセス
[学会発表] Self-Adaptive Machine Speech Chain in Noisy Environment2022
- 著者名/発表者名
  Sakriani Sakti
- 学会等名
  the AAAI workshop on Self-supervised Learning for Audio and Speech Processing
- 国際学会 / 招待講演
[学会発表] Using Local Phrase Dependency Structure Information in Neural Sequence-to-Sequence Speech Synthesis2021
- 著者名/発表者名
  Nobuyoshi Kaiki, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  Oriental COCOSDA 2021
- 国際学会
[学会発表] Transcribing Paralinguistic Acoustic Cues to Target Language Text in Transformer-Based Speech-to-Text Translation2021
- 著者名/発表者名
  Hirotaka Tokuyama, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura
- 学会等名
  INTERSPEECH 2021
- 国際学会
[学会発表] Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned Transformer2021
- 著者名/発表者名
  Johanes Effendi, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  INTERSPEECH 2021
- 国際学会
[学会発表] Unsupervised Neural-Based Graph Clustering for Variable-Length Speech Representation Discovery of Zero-Resource Languages2021
- 著者名/発表者名
  Shun Takahashi, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  INTERSPEECH 2021
- 国際学会
[学会発表] Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak Louder2021
- 著者名/発表者名
  Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  INTERSPEECH 2021
- 国際学会
[学会発表] Improving Intelligibility of Synthesized Speech in Noisy Condition with Dynamically Adaptive Machine Speech Chain2021
- 著者名/発表者名
  Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  SIG-SLP 2021
[学会発表] ゼロ資源状況におけるサブワード単位の獲得にむけてグラフニューラルネットワークを用いた手法2021
- 著者名/発表者名
  高橋舜, サクティサクリアニ, 中村哲
- 学会等名
  2021年度人工知能学会全国大会 (第35回)
[学会発表] 局所的な句構造の情報を用いたニューラル音声合成2021
- 著者名/発表者名
  海木延佳, サクティサクリアニ, 中村哲
- 学会等名
  音学シンポジウム2021
[学会発表] Machine Speech Chain: A Deep Learning Approach for Training and Inference through Feedback Loop2021
- 著者名/発表者名
  Sakriani Sakti
- 学会等名
  IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
- 国際学会 / 招待講演
[学会発表] Machine Speech Chain: A Deep Learning Approach for Modeling Human Speech Perception and Production with Auditory Feedback Mechanism2021
- 著者名/発表者名
  Sakriani Sakti
- 学会等名
  the ITB Seminar
- 国際学会 / 招待講演
[学会発表] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021
- 著者名/発表者名
  Sakriani Sakti
- 学会等名
  the SoCS International Seminar
- 国際学会 / 招待講演
[学会発表] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021
- 著者名/発表者名
  Sakriani Sakti
- 学会等名
  International Conference of Artificial Intelligence and Speech Technology (AIST-3)
- 国際学会 / 招待講演
[学会発表] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021
- 著者名/発表者名
  Sakriani Sakti
- 学会等名
  YRRSDS
- 国際学会 / 招待講演

2021 年度 実績報告書

言語の壁を超える低資源多言語Machine Speech Chain技術の構築

研究代表者

SAKTI Sakriani 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00395005)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Modeling Unsupervised Empirical Adaptation by DPGMM and DPGMM-RNN Hybrid Model to Extract Perceptual Features for Low-Resource ASR2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Neural Incremental Speech Recognition Toward Real-Time Machine Speech Translation2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Code-Switching ASR and TTS Using Semisupervised Learning with Machine Speech Chain2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Multimodal Chain: Cross-Modal Collaboration Through Listening, Speaking, and Visualizing2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Using Local Phrase Dependency Structure Information in Neural Sequence-to-Sequence Speech Synthesis2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Transcribing Paralinguistic Acoustic Cues to Target Language Text in Transformer-Based Speech-to-Text Translation2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned Transformer2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Unsupervised Neural-Based Graph Clustering for Variable-Length Speech Representation Discovery of Zero-Resource Languages2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak Louder2021

著者名/発表者名

雑誌名

DOI

[学会発表] Self-Adaptive Machine Speech Chain in Noisy Environment2022

著者名/発表者名

学会等名

[学会発表] Using Local Phrase Dependency Structure Information in Neural Sequence-to-Sequence Speech Synthesis2021

著者名/発表者名

学会等名

[学会発表] Transcribing Paralinguistic Acoustic Cues to Target Language Text in Transformer-Based Speech-to-Text Translation2021

著者名/発表者名

学会等名

[学会発表] Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned Transformer2021

著者名/発表者名

学会等名

[学会発表] Unsupervised Neural-Based Graph Clustering for Variable-Length Speech Representation Discovery of Zero-Resource Languages2021

著者名/発表者名

学会等名

[学会発表] Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak Louder2021

著者名/発表者名

学会等名

[学会発表] Improving Intelligibility of Synthesized Speech in Noisy Condition with Dynamically Adaptive Machine Speech Chain2021

著者名/発表者名

学会等名

[学会発表] ゼロ資源状況におけるサブワード単位の獲得にむけて グラフニューラルネットワークを用いた手法2021

著者名/発表者名

学会等名

[学会発表] 局所的な句構造の情報を用いた ニューラル音声合成2021

著者名/発表者名

学会等名

[学会発表] Machine Speech Chain: A Deep Learning Approach for Training and Inference through Feedback Loop2021

著者名/発表者名

学会等名

[学会発表] Machine Speech Chain: A Deep Learning Approach for Modeling Human Speech Perception and Production with Auditory Feedback Mechanism2021

著者名/発表者名

学会等名

[学会発表] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021

著者名/発表者名

学会等名

[学会発表] Listening while Speaking and Visualizing: A Semi-supervised Approach with Multimodal Machine Speech Chain2021

2021 年度実績報告書

[学会発表] ゼロ資源状況におけるサブワード単位の獲得にむけてグラフニューラルネットワークを用いた手法2021

[学会発表] 局所的な句構造の情報を用いたニューラル音声合成2021