2019 年度実績報告書

ゼロ資源での教師なし音響パターン発見のための研究

研究課題

研究課題/領域番号	17K00237
研究機関	奈良先端科学技術大学院大学
研究代表者	サクリアニサクティ奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)
研究分担者	中村哲奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	音声認識 / ゼロ資源音声技術 / 脳波 / 音声翻訳
研究実績の概要	東京オリンピック・パラリンピックが近づくにつれ、海外からの観光客との言葉の壁はますます深刻な問題となっている。現在の音声認識・音声翻訳技術は、リソースが大きい言語についてはすでに容易に利用できるため、ここでは言語特有の知識も書き起こしデータもないようなゼロ資源の音声処理の問題を対象とする。2018 年度では、インドネシア言語のゼロリソースモデリングの構築に成功した。今回は、Dirichlet プロセスのガウス混合モデルを利用する代わりに、ディープラーニングに基づいてシステムを構築した。このシステムでは、（１）サブワード単位を発見すること、（２）音声を合成すること、および両方とも教師なしで行うことができた。また、2019年の世界ゼロ資源スピーチチャレンジに参加し、提案手法で上位結果を得ることができた。さらに、脳解析研究について、2018年度では、Speech-Imagination中のEEG振動とあからさまな相手の音声包絡線との間の同期を明らかにするための研究を行った。2019年では引き続き2020年のWorld Zero Resource Speech Challengeに参加し、システムのパフォーマンスを向上させることができた。また、テキストを書き起こさずに、未知の言語用の教師なし音声音声変換を作成し、IEEE自動音声認識および理解会議で公開した。また、すべての言語、すべての人々、すべての国の言語テクノロジーをサポートする世界言語言語コンソーシアムのため、ユネスコとの協力関係を構築した。このプロジェクトは、今後、2022年から2023年の10年間、国連国際先住民族言語年として継続される予定である。

研究成果
(26件)

すべて 2020 2019 2018

すべて雑誌論文 (7件) (うち国際共著 5件、査読あり 7件、オープンアクセス 3件) 学会発表 (18件) (うち国際学会 15件) 産業財産権 (1件)

[雑誌論文] Machine Speech Chain2020
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: Vol.28 ページ: 976-989
- DOI
  10.1109/TASLP.2020.2977776
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Leveraging Neural Caption Translation with Visually Grounded Paraphrase Augmentation2020
- 著者名/発表者名
  Johanes Effendi, Katsuhito Sudoh, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEICE
  
  巻: Vol.E103-D, No.03 ページ: 674-683
- DOI
  10.1587/transinf.2019EDP7065
- 査読あり
[雑誌論文] Recurrent Neural Network Compression based on Low-Rank Tensor Representation2020
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEICE
  
  巻: Volume E103.D Issue 2 ページ: 435-449
- DOI
  10.1587/transinf.2019EDP7040
- 査読あり
[雑誌論文] End-to-End Speech Recognition Sequence Training with Reinforcement Learning2019
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEEE Access
  
  巻: Volume: 7 ページ: 79758-79769
- DOI
  10.1109/ACCESS.2019.2922617
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Positive Emotion Elicitation in Chat-Based Dialogue Systems2019
- 著者名/発表者名
  Nurul Lubis, Sakriani Sakti, Koichiro Yoshino, Satoshi Nakamura
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: Volume: 27, Issue: 4 ページ: 866-877
- DOI
  10.1109/TASLP.2019.2900910
- 査読あり / 国際共著
[雑誌論文] Synchronization between overt speech envelope and EEG oscillations during imagined speech2019
- 著者名/発表者名
  Hiroki Watanabe, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  Neuroscience Research
  
  巻: Volume 153 ページ: 48-55
- DOI
  10.1016/j.neures.2019.04.004
- 査読あり / 国際共著
[雑誌論文] Neural Oscillation-Based Classification of Japanese Spoken Sentences During Speech Perception2019
- 著者名/発表者名
  Hiroki Watanabe, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: Volume E102.D, issue 2 ページ: 383-391
- DOI
  10.1587/transinf.2018EDP7293
- 査読あり / オープンアクセス / 国際共著
[学会発表] Neural Incremental Speech Recognition Through Attention Transfer2020
- 著者名/発表者名
  Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  ANLP
[学会発表] From Speech Chain to Multimodal Chain: Leveraging Cross-modal Data Augmentation for Semi-supervised Learning2020
- 著者名/発表者名
  Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  ANLP
[学会発表] Speech-to-Speech Translation without Text2020
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  ANLP
[学会発表] Neural Machine Translation with Acoustic Embedding2019
- 著者名/発表者名
  Takatomo Kano, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE Automatic Speech Recognition and Understanding (ASRU) Workshop
- 国際学会
[学会発表] Zero-shot Code-switching ASR and TTS with Multilingual Machine Speech Chain2019
- 著者名/発表者名
  Sahoko Nakayama, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE Automatic Speech Recognition and Understanding (ASRU) Workshop
- 国際学会
[学会発表] Listening while Speaking: Improving ASR through Multimodal Chain2019
- 著者名/発表者名
  Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE Automatic Speech Recognition and Understanding (ASRU) Workshop
- 国際学会
[学会発表] Speech-to-speech Translation between Untranscribed Unknown Languages2019
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE Automatic Speech Recognition and Understanding (ASRU) Workshop
- 国際学会
[学会発表] Dialogue Model and Response Generation for Emotion Improvement Elicitation2019
- 著者名/発表者名
  Nurul Lubis, Sakriani Sakti, Koichiro Yoshino, Satoshi Nakamura
- 学会等名
  the 3rd Conversational AI workshop - NeurIPS 2019
- 国際学会
[学会発表] Recognition and Translation of Code-switching Speech Utterances2019
- 著者名/発表者名
  Sahoko Nakayama, Takatomo Kano, Andros Tjandra, Sakriani Sakti, and Satoshi Nakamura
- 学会等名
  Oriental COCOSDA 2019
- 国際学会
[学会発表] Phoneme Level Speaking Rate Variation on Waveform Generation using GAN-TTS2019
- 著者名/発表者名
  Mayuko Okamoto, Sakriani Sakti, and Satoshi Nakamura
- 学会等名
  Oriental COCOSDA 2019
- 国際学会
[学会発表] Sequence-to-sequence Learning via Attention Transfer for Incremental Speech Recognition2019
- 著者名/発表者名
  Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  Interspeech 2019
- 国際学会
[学会発表] VQVAE Unsupervised Unit Discovery and Multi-Scale Code2Spec Inverter for Zerospeech Challenge 20192019
- 著者名/発表者名
  Andros Tjandra, Berrak Sisman, Mingyang Zhang, Sakriani Sakti, Haizou Li, Satoshi Nakamura
- 学会等名
  Interspeech 2019
- 国際学会
[学会発表] Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework2019
- 著者名/発表者名
  Tomoya Yanagita, Sakriani Sakti and Satoshi Nakamura
- 学会等名
  SSW
- 国際学会
[学会発表] Speech Quality Evaluation of Synthesized Japanese Speech Using EEG2019
- 著者名/発表者名
  Ivan Halim Parmonangan, Hiroki Tanaka, Sakriani Sakti, Shinnosuke Takamichi, Satoshi Nakamura
- 学会等名
  Interspeech 2019
- 国際学会
[学会発表] EEG Analysis towards Evaluating Synthesized Speech Quality2019
- 著者名/発表者名
  Ivan Halim Parmonangan, Hiroki Tanaka, Sakti Sakriani, Shinnosuke Takamichi, Satoshi Nakamura
- 学会等名
  IEEE Engineering in Medicine and Biology Society
- 国際学会
[学会発表] Cross-lingual speech-based ToBI label generation using bidirectional LSTM2019
- 著者名/発表者名
  Marco Vetter, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] End-to-end feedback loss in speech chain framework via straight-through estimator2019
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] Speech Artifact Removal from EEG Recordings of Spoken Word Production with Tensor Decomposition2019
- 著者名/発表者名
  Holy Lovenia, Hiroki Tanaka, Sakriani Sakti, Ayu Purwarianti, Satoshi Nakamura
- 学会等名
  IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)
- 国際学会
[産業財産権] スピーチチェイン装置、コンピュータプログラムおよびＤＮＮ音声認識・合成相互学習方法2018
- 発明者名
  アンドロスチャンドラ, サクリアニサクティ, 中村哲
- 権利者名
  アンドロスチャンドラ, サクリアニサクティ, 中村哲
- 産業財産権種類
  特許
- 公開番号
  特開2019-120841

2019 年度 実績報告書

ゼロ資源での教師なし音響パターン発見のための研究

研究代表者

サクリアニ サクティ 奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)

研究成果

[雑誌論文] Machine Speech Chain2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Leveraging Neural Caption Translation with Visually Grounded Paraphrase Augmentation2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Recurrent Neural Network Compression based on Low-Rank Tensor Representation2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] End-to-End Speech Recognition Sequence Training with Reinforcement Learning2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Positive Emotion Elicitation in Chat-Based Dialogue Systems2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Synchronization between overt speech envelope and EEG oscillations during imagined speech2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Neural Oscillation-Based Classification of Japanese Spoken Sentences During Speech Perception2019

著者名/発表者名

雑誌名

DOI

[学会発表] Neural Incremental Speech Recognition Through Attention Transfer2020

著者名/発表者名

学会等名

[学会発表] From Speech Chain to Multimodal Chain: Leveraging Cross-modal Data Augmentation for Semi-supervised Learning2020

著者名/発表者名

学会等名

[学会発表] Speech-to-Speech Translation without Text2020

著者名/発表者名

学会等名

[学会発表] Neural Machine Translation with Acoustic Embedding2019

著者名/発表者名

学会等名

[学会発表] Zero-shot Code-switching ASR and TTS with Multilingual Machine Speech Chain2019

著者名/発表者名

学会等名

[学会発表] Listening while Speaking: Improving ASR through Multimodal Chain2019

著者名/発表者名

学会等名

[学会発表] Speech-to-speech Translation between Untranscribed Unknown Languages2019

著者名/発表者名

学会等名

[学会発表] Dialogue Model and Response Generation for Emotion Improvement Elicitation2019

著者名/発表者名

学会等名

[学会発表] Recognition and Translation of Code-switching Speech Utterances2019

著者名/発表者名

学会等名

[学会発表] Phoneme Level Speaking Rate Variation on Waveform Generation using GAN-TTS2019

著者名/発表者名

学会等名

[学会発表] Sequence-to-sequence Learning via Attention Transfer for Incremental Speech Recognition2019

著者名/発表者名

学会等名

[学会発表] VQVAE Unsupervised Unit Discovery and Multi-Scale Code2Spec Inverter for Zerospeech Challenge 20192019

著者名/発表者名

学会等名

[学会発表] Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework2019

著者名/発表者名

学会等名

[学会発表] Speech Quality Evaluation of Synthesized Japanese Speech Using EEG2019

著者名/発表者名

学会等名

[学会発表] EEG Analysis towards Evaluating Synthesized Speech Quality2019

著者名/発表者名

学会等名

[学会発表] Cross-lingual speech-based ToBI label generation using bidirectional LSTM2019

著者名/発表者名

2019 年度実績報告書

サクリアニサクティ奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)