2022 年度実績報告書

言語の壁を超える低資源多言語Machine Speech Chain技術の構築

研究課題

研究課題/領域番号	21H03467
配分区分	補助金
研究機関	北陸先端科学技術大学院大学
研究代表者	SAKTI Sakriani 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00395005)
研究分担者	中村哲奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
研究期間 (年度)	2021-04-01 – 2026-03-31
キーワード	低資源音声技術 / 多言語音声認識 / 多言語音声合成 / 音声翻訳 / Machine Speech Chain
研究実績の概要	新型コロナ感染等による危機管理のグローバル化や、大型国際イベントの開催など、海外からの居住者および観光客との言葉の壁は深刻な問題となっている。いくつかの音声翻訳サービスが実用化されているが、高精度の翻訳性能を実現するために、広範な音声と対応する書き起こしデータを使用する教師あり学習ディープラーニングに基づいた音声翻訳の開発が必須である。本研究では、人間の言語習得プロセス、特にSpeech Chain メカニズムに基づいて、多言語の言語習得のための新しいディープラーニングの教師なしおよび半教師あり学習メカニズムを提案する。R4年度は、課題3:多言語Machine Speech Chainフレームワーク「話しながら聞いて多言語を学ぶ」（オフライン半教師あり学習）の開発を中心とした。その後、課題4：多言語Machine Speech Chainフレームワークの改善とリアルタイム学習(オフラインとオンライン学習)の開発、及び課題5：多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習（オンライン学習)の開発も始めた。インドネシアの大学とも連携し、インドネシアのデータの音声とテキストを収集した。合計で、4つの査読付きジャーナル、4つの査読付き国際会議論文、および 6つの招待講演を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 R3年度と同じ、パートタイムの学生を何人か雇って、リソースの少ない言語の音声とテキストのデータを自分たちで収集して分析することを計画した。しかし、COVIDの大流行のため、それを行うのは困難だった。ただし、利用可能なデータを購入し、音声録音会社を通じてデータを収集することはできたし、多言語MachineSpeech Chainフレームワークに関してはいくつかの言語と感情のための機械音声チェーンを開発した。また、インドネシアの大学とも連携し、インドネシアのデータの音声とテキストを収集し、国際会議に論文を投稿した。リアルタイム学習(オンライン学習)MachineSpeech Chainの研究に関連して、リアルタイムで動的に状況に適応できる機械の発話連鎖フレームワークを完成させることに成功した。この作品は、トップジャーナル (IEEE Access および IEEE/ACM Transactions on Audio, Speech, and Language Processing) に掲載されていた。自己Lifelong学習MachineSpeech Chainの研究に関連して、私たちはプロの通訳者と協力して彼らの生涯学習を分析することを始めた。研究代表者は、いくつかの国際ワークショップで基調講演を行うよう招待された。
今後の研究の推進方策	R5年度で以下の課題を構成して取り組む。課題3：多言語Machine Speech Chainフレームワーク「話しながら聞いて多言語を学ぶ」（オフライン半教師あり学習）の開発に関しては、実験を継続する。特に、新しい教師なし機械Machine Speech Chainの可能性を調査する。課題4：多言語Machine Speech Chainフレームワークの改善とリアルタイム学習(オフラインとオンライン学習)の開発に関しては、インクリメンタルMachine Speech Chainの実験を継続する。特にMachine Speech Chainの性能を改善し、さらにより多くの言語を調査する。課題5：多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習（オンライン学習)に関しては、実験を継続する。

研究成果
(20件)

すべて 2023 2022 その他

すべて国際共同研究 (1件) 雑誌論文 (9件) (うち国際共著 1件、査読あり 8件、オープンアクセス 5件) 学会発表 (10件) (うち国際学会 8件、招待講演 6件)

[国際共同研究] Bandung Institute of Technology/University of Indonesia(インドネシア)
- 国名
  インドネシア
- 外国機関名
  Bandung Institute of Technology/University of Indonesia
[雑誌論文] Japanese Neural Incremental Text-to-Speech Synthesis Framework With an Accent Phrase Input2023
- 著者名/発表者名
  Yanagita Tomoya、Sakti Sakriani、Nakamura Satoshi
- 雑誌名
  
  IEEE Access
  
  巻: 11 ページ: 22355～22363
- DOI
  10.1109/ACCESS.2023.3251657
- 査読あり / オープンアクセス
[雑誌論文] NIX-TTS: Lightweight and End-to-End Text-to-Speech Via Module-Wise Distillation2023
- 著者名/発表者名
  Chevi Rendi、Prasojo Radityo Eko、Aji Alham Fikri、Tjandra Andros、Sakti Sakriani
- 雑誌名
  
  Proceeding of the IEEE Spoken Language Technology Workshop (SLT) 2023
  
  巻: 1 ページ: 970～976
- DOI
  10.1109/SLT54892.2023.10023322
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Language technology impact on linguistic diversity2023
- 著者名/発表者名
  Sakti Sakriani
- 雑誌名
  
  In Book: "State of the art of indigenous languages in research: a collection of selected research papers," UNESCO Open Access Repository
  
  巻: 1 ページ: 341～348
- 査読あり / オープンアクセス
[雑誌論文] Cyclic Partially-aligned Transformer for Visually Connected Speech-to-text Mapping2023
- 著者名/発表者名
  Johanes Effendi、Sakti Sakriani、Nakamura Satoshi
- 雑誌名
  
  Proceeding of the Acoustical Society of Japan (ASJ)
  
  巻: 1 ページ: 1～2
[雑誌論文] 日本語逐次音声合成における合成単位2022
- 著者名/発表者名
  柳田智也、サクテイサクリアニ、中村哲
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 63 ページ: 1149～1158
- DOI
  10.20729/00217617
- 査読あり
[雑誌論文] A Machine Speech Chain Approach for Dynamically Adaptive Lombard TTS in Static and Dynamic Noise Environments2022
- 著者名/発表者名
  Novitasari Sashi、Sakti Sakriani、Nakamura Satoshi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 30 ページ: 2673～2688
- DOI
  10.1109/TASLP.2022.3196879
- 査読あり / オープンアクセス
[雑誌論文] Tackling multiple object tracking with complicated motions ? Re-designing the integration of motion and appearance2022
- 著者名/発表者名
  Yang Fan、Wang Zheng、Wu Yang、Sakti Sakriani、Nakamura Satoshi
- 雑誌名
  
  Image and Vision Computing
  
  巻: 124 ページ: 104514～104514
- DOI
  10.1016/j.imavis.2022.104514
- 査読あり / オープンアクセス
[雑誌論文] Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing2022
- 著者名/発表者名
  Qi Heli、Novitasari Sashi、Sakti Sakriani、Nakamura Satoshi
- 雑誌名
  
  Proceeding of the INTERSPEECH 2022
  
  巻: 1 ページ: 3413～3417
- DOI
  10.21437/Interspeech.2022-11169
- 査読あり
[雑誌論文] NAIST Simultaneous Speech-to-Text Translation System for IWSLT 20222022
- 著者名/発表者名
  Fukuda Ryo、Ko Yuka、Kano Yasumasa、Doi Kosuke、Tokuyama Hirotaka、Sakti Sakriani、Sudoh Katsuhito、Nakamura Satoshi
- 雑誌名
  
  Proceeding of the International Conference on Spoken Language Translation (IWSLT)
  
  巻: 1 ページ: 286～292
- DOI
  10.18653/v1/2022.iwslt-1.25
- 査読あり
[学会発表] Communicative Intelligent Systems towards Society 5.02023
- 著者名/発表者名
  Sakti Sakriani
- 学会等名
  Sarasehan Nasional Pendidikan Tinggi Informatika dan Pemberian Tribute kepada Penggagas dan Pendidik Senior Teknik Informatika ITB
- 招待講演
[学会発表] Language Technology for All: From the indigenous community perspectives2023
- 著者名/発表者名
  Sakti Sakriani
- 学会等名
  "Data, Technologies and Benchmarks for the Spoken Languages of the World" Meeting of IEEE SLT
- 国際学会 / 招待講演
[学会発表] NIX-TTS: Lightweight and End-to-End Text-to-Speech Via Module-Wise Distillation2023
- 著者名/発表者名
  Chevi Rendi、Prasojo Radityo Eko、Aji Alham Fikri、Tjandra Andros、Sakti Sakriani
- 学会等名
  IEEE Spoken Language Technology Workshop (SLT) 2023
- 国際学会
[学会発表] Cyclic Partially-aligned Transformer for Visually Connected Speech-to-text Mapping2023
- 著者名/発表者名
  Effendi Johanes、Sakti Sakriani、Nakamura Satoshi
- 学会等名
  Acoustical Society of Japan (ASJ)
[学会発表] Language Technology for All: From the technology and indigenous community perspectives2022
- 著者名/発表者名
  Sakti Sakriani
- 学会等名
  the 25th Conference of the Oriental COCOSDA
- 国際学会 / 招待講演
[学会発表] Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Processing with Machine Speech Chain2022
- 著者名/発表者名
  Sakti Sakriani
- 学会等名
  "Data Collection, Bias, and Ethical Concerns in Speech Processing," Speech for Social Good - INTERSPEECH Satellite Workshop
- 国際学会 / 招待講演
[学会発表] Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Processing with Machine Speech Chain2022
- 著者名/発表者名
  Sakti Sakriani
- 学会等名
  HiTZ Language Technology Webinar
- 国際学会 / 招待講演
[学会発表] Data Collection, Bias, and Ethical Concerns in Speech Processing2022
- 著者名/発表者名
  Sakti Sakriani
- 学会等名
  Speech for Social Good - INTERSPEECH Satellite Workshop
- 国際学会 / 招待講演
[学会発表] Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing2022
- 著者名/発表者名
  Qi Heli、Novitasari Sashi、Sakti Sakriani、Nakamura Satoshi
- 学会等名
  INTERSPEECH 2022
- 国際学会
[学会発表] NAIST Simultaneous Speech-to-Text Translation System for IWSLT 20222022
- 著者名/発表者名
  Fukuda Ryo、Ko Yuka、Kano Yasumasa、Doi Kosuke、Tokuyama Hirotaka、Sakti Sakriani、Sudoh Katsuhito、Nakamura Satoshi
- 学会等名
  International Conference on Spoken Language Translation (IWSLT)
- 国際学会

2022 年度 実績報告書

言語の壁を超える低資源多言語Machine Speech Chain技術の構築

研究代表者

SAKTI Sakriani 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00395005)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] Bandung Institute of Technology/University of Indonesia(インドネシア)

国名

外国機関名

[雑誌論文] Japanese Neural Incremental Text-to-Speech Synthesis Framework With an Accent Phrase Input2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] NIX-TTS: Lightweight and End-to-End Text-to-Speech Via Module-Wise Distillation2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Language technology impact on linguistic diversity2023

著者名/発表者名

雑誌名

[雑誌論文] Cyclic Partially-aligned Transformer for Visually Connected Speech-to-text Mapping2023

著者名/発表者名

雑誌名

[雑誌論文] 日本語逐次音声合成における合成単位2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] A Machine Speech Chain Approach for Dynamically Adaptive Lombard TTS in Static and Dynamic Noise Environments2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Tackling multiple object tracking with complicated motions ? Re-designing the integration of motion and appearance2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] NAIST Simultaneous Speech-to-Text Translation System for IWSLT 20222022

著者名/発表者名

雑誌名

DOI

[学会発表] Communicative Intelligent Systems towards Society 5.02023

著者名/発表者名

学会等名

[学会発表] Language Technology for All: From the indigenous community perspectives2023

著者名/発表者名

学会等名

[学会発表] NIX-TTS: Lightweight and End-to-End Text-to-Speech Via Module-Wise Distillation2023

著者名/発表者名

学会等名

[学会発表] Cyclic Partially-aligned Transformer for Visually Connected Speech-to-text Mapping2023

著者名/発表者名

学会等名

[学会発表] Language Technology for All: From the technology and indigenous community perspectives2022

著者名/発表者名

学会等名

[学会発表] Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Processing with Machine Speech Chain2022

著者名/発表者名

学会等名

[学会発表] Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Processing with Machine Speech Chain2022

著者名/発表者名

学会等名

[学会発表] Data Collection, Bias, and Ethical Concerns in Speech Processing2022

著者名/発表者名

学会等名

[学会発表] Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing2022

著者名/発表者名

学会等名

[学会発表] NAIST Simultaneous Speech-to-Text Translation System for IWSLT 20222022

著者名/発表者名

学会等名

2022 年度実績報告書