2018 年度実施状況報告書

ゼロ資源での教師なし音響パターン発見のための研究

研究課題

研究課題/領域番号	17K00237
研究機関	奈良先端科学技術大学院大学
研究代表者	サクリアニサクティ奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)
研究分担者	中村哲奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	音声認識 / ゼロ資源音声技術 / 脳波
研究実績の概要	2020年東京オリンピック・パラリンピックが近づくにつれ、海外からの観光客との言葉の壁はますます深刻な問題となっている。現在の音声認識・音声翻訳技術は、リソースが大きい言語についてはすでに容易に利用できるため、ここでは言語特有の知識も書き起こしデータもないようなゼロ資源の音声処理の問題を対象とする。2017 年度では、当初計画にあったアフリカ言語（ツォンガ語）のゼロリソースモデリングの構築に成功した。さらに、2017年のゼロリソースの音声チャレンジに成功することができた。インドネシアの大学との連携もまだ進行中であるが、研究成果は得られていなかった。2018 年度では、インドネシア言語のゼロリソースモデリングの構築に成功した。今回は、Dirichlet プロセスのガウス混合モデルを利用する代わりに、ディープラーニングに基づいてシステムを構築した。このシステムでは、（１）サブワード単位を発見すること、（２）音声を合成すること、および両方とも教師なしで行うことができた。また、2019年の世界ゼロ資源スピーチチャレンジに参加し、提案手法で上位結果を得ることができた。さらに、脳解析研究について、2017 年度では、脳波検査を用いて文章を判別する実験を行った。2018年度では、Speech-Imagination中のEEG振動とあからさまな相手の音声包絡線との間の同期を明らかにするための研究を行った。具体的には、（1）Speech-Imagination中のEEGベースの回帰音声エンベロープが顕在音声エンベロープと相関するかどうか、および（2）Imagined-EEGが参加した異なるエンベロープで音声刺激を分類できるかどうかを調べた。これらの結果は、Speech-Imagination中のＥＥＧと明白な対応物のエンベロープとの間の同期を示している。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由今年は、2017年には不可能だったインドネシア語のゼロリソースモデリングの構築に成功した。さらに、2019年のゼロリソースボイスチャレンジで最高のパフォーマンスを達成することができた。インドネシアの大学との協力は継続中である。また、他のアジアの研究機関との共同研究も始めている。Speech-ImaginationのEEG分析も行っている。現在のところまだ研究結果は得られていないが、インドネシア語でもEEG実験を開始した。
今後の研究の推進方策	次の研究活動を2019年に継続する。 (1)ゼロリソースモデリングとEEG実験の継続。 (2)提案枠組みの完成：低資源言語（インドネシア語／ツォンガ語）から主要言語（日本語／英語）への音声翻訳が可能な本格的なシステムの構築を目指す。

研究成果
(32件)

すべて 2019 2018 その他

すべて国際共同研究 (1件) 雑誌論文 (6件) (うち国際共著 6件、査読あり 6件、オープンアクセス 6件) 学会発表 (25件) (うち国際学会 15件)

[国際共同研究] University of Indonesia/Institute Technology Bandung(インドネシア)
- 国名
  インドネシア
- 外国機関名
  University of Indonesia/Institute Technology Bandung
[雑誌論文] Neural Oscillation-Based Classification of Japanese Spoken Sentences During Speech Perception2019
- 著者名/発表者名
  Hiroki Watanabe, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: Volume E102.D, issue 2 ページ: 383-391
- DOI
  10.1587/transinf.2018EDP7293
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Electroencephalogram-Based Single Trial Detection of Language Expectation Violations in Listening to Speech2019
- 著者名/発表者名
  Hiroki Tanaka, Hiroki Watanabe, Hayato Maki, Sakti Sakriani, Satoshi Nakamura
- 雑誌名
  
  Frontiers in Computational Neuroscience
  
  巻: 13
- DOI
  10.3389/fncom.2019.00015
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Quality Prediction of Synthesized Speech Based on Tensor Structured EEG Signals2018
- 著者名/発表者名
  Hayato Maki, Sakriani Sakti, Hiroki Tanaka, Satoshi Nakamura
- 雑誌名
  
  PloS One
  
  巻: 13 ページ: pp. 1-13
- DOI
  10.1371/journal.pone.0193521
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Construction of Spontaneous Emotion Corpus from Indonesian TV Talk Shows and Its Application on Multimodal Emotion Recognition2018
- 著者名/発表者名
  Nurul Lubis, Dessi Lestari, Sakriani Sakti, Ayu Purwarianti, and Satoshi Nakamura
- 雑誌名
  
  Transactions on Information and Systems, Institute of Electronics, Information and Communication Engineers (IEICE)
  
  巻: E101-D ページ: pp. 2092-2100
- DOI
  10.1587/transinf.2017EDP7362
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Sequence-to-Sequence Models for Emphasis Speech Translation2018
- 著者名/発表者名
  Quoc Truong Do, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 26 ページ: pp. 1873 - 1883
- DOI
  10.1109/TASLP.2018.2846402
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Dirichlet Process Mixture of Mixtures Model for Unsupervised Subword Modeling2018
- 著者名/発表者名
  Michael Heck, Sakriani Sakti, Satoshi Nakamura
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 26 ページ: pp. 2027 - 2042
- DOI
  10.1109/TASLP.2018.2852500
- 査読あり / オープンアクセス / 国際共著
[学会発表] カリキュラムラーニングを用いた音声翻訳の学習戦略の提案2019
- 著者名/発表者名
  叶高朋, Sakriani Sakti, 中村哲
- 学会等名
  言語処理学会第25回年次大会（NLP2019)
[学会発表] Machine Speech Chainに基づく半教師あり学習を用いた日英コードスイッチング音声の認識2019
- 著者名/発表者名
  中山佐保子, Andros Tjandra, Sakriani Sakti, 中村哲
- 学会等名
  言語処理学会第25回年次大会（NLP2019)
[学会発表] Affect-sensitive Dialogue Response Generation for Positive Emotion Elicitation2019
- 著者名/発表者名
  Nurul Lubis, Sakriani Sakti, Koichiro Yoshino and Satoshi Nakamura
- 学会等名
  言語処理学会第25回年次大会（NLP2019)
[学会発表] Enhancing Neural Machine Translation with Image-based Paraphrase Augmentation2019
- 著者名/発表者名
  Johanes Effendi, Sakriani Sakti, Katsuhito Sudoh and Satoshi Nakamura
- 学会等名
  言語処理学会第25回年次大会（NLP2019)
[学会発表] Speaker and Emotion Recognition of TV-Series Data Using Multimodal and Multitask Deep Learning2019
- 著者名/発表者名
  Sashi Novitasari, Quoc Truong Do, Sakriani Sakti, Dessi Lestari and Satoshi Nakamura
- 学会等名
  言語処理学会第25回年次大会（NLP2019)
[学会発表] Unifying Speech Recognition and Generation with Machine Speech Chain2019
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti and Satoshi Nakamura
- 学会等名
  言語処理学会第25回年次大会（NLP2019)
[学会発表] Sequence-to-Sequence ASR Optimization via Reinforcement Learning2018
- 著者名/発表者名
  Andors Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] Graph regularized tensor factorization for single-trial EEG analysis2018
- 著者名/発表者名
  Hayato Maki, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] Construction of English-French Multimodal Affective Conversational Corpus from Drama TV Series2018
- 著者名/発表者名
  Sashi Novitasari, Quoc-Truong Do, Sakriani Sakti, Dessi Lestari, Satoshi Nakamura
- 学会等名
  LREC 2018
- 国際学会
[学会発表] Multi-modal Muti-task Deep Learning for Speaker and Emotion Recognition of TV-series Data2018
- 著者名/発表者名
  Sashi Novitasari, Quoc-Truong Do, Sakriani Sakti, Dessi Lestari, Satoshi Nakamura
- 学会等名
  Oriental COCOSDA 2018
- 国際学会
[学会発表] Japanese-English Code-Switching Speech Data Construction2018
- 著者名/発表者名
  Sahoko Nakayama, Takatomo Kano, Quoc-Truong Do, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  Oriental COCOSDA 2018
- 国際学会
[学会発表] Single-trial Detection of Semantic Anomalies from EEG during Listening to Spoken Sentences2018
- 著者名/発表者名
  Hiroki Tanaka, Hiroki Watanabe, Hayato Maki, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC 2018)
- 国際学会
[学会発表] Compressing End-to-End ASR Networks by Tensor-Train Decomposition2018
- 著者名/発表者名
  Takuma Mori, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  Interspeech 2018
- 国際学会
[学会発表] Optimizing DPGMM Clustering in Zero Resource Setting Based on Functional Load2018
- 著者名/発表者名
  Bin Wu, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  SLTU 2018
- 国際学会
[学会発表] Incremental TTS for Japanese Language2018
- 著者名/発表者名
  Tomoya Yanagita, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  Interspeech 2018
- 国際学会
[学会発表] Machine Speech Chain with One-shot Speaker Adaptation2018
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  Interspeech 2018
- 国際学会
[学会発表] Speech Chain for Semi-Supervised Learning of Japanese-English Code-Switching ASR and TTS2018
- 著者名/発表者名
  Sahoko Nakayama, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE SLT
- 国際学会
[学会発表] Multi-scale Alignment and Contextual History for Attention Mechanism in Sequence-to-Sequence Model2018
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE SLT
- 国際学会
[学会発表] Toward Multi-features Emphases Speech Translation: Assessment of Human Emphases Production and Perception with Speech and Text Clues2018
- 著者名/発表者名
  Quoc-Truong Do, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IEEE SLT
- 国際学会
[学会発表] Using Spoken Word Posterior Features in Neural Machine Translation2018
- 著者名/発表者名
  Kaho Osamura, Takatomo Kano, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  IWSLT 2018
- 国際学会
[学会発表] Multi-paraphrase Augmentation to Leverage Neural Caption Translation2018
- 著者名/発表者名
  Johanes Effendi, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura
- 学会等名
  IWSLT 2018
- 国際学会
[学会発表] Machine Speech Chain with Deep Learning2018
- 著者名/発表者名
  Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] Multimodal Database of Negative Emotion Recovery in Dyadic Interactions: Construction and Analysis2018
- 著者名/発表者名
  Nurul Lubis, Michael Heck, Sakriani Sakti, Koichiro Yoshino, Satoshi Nakamura
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] 日英コードスイッチング音声データの構築2018
- 著者名/発表者名
  中山佐保子, ドクオックチュオン, サクティサクリアニ, 中村哲
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] Visual Description Paraphrase Corpus Creation with Various Elementary Operations2018
- 著者名/発表者名
  Johanes Effendi, Sakriani Sakti, Satoshi Nakamura
- 学会等名
  日本音響学会2018年秋季研究発表会

2018 年度 実施状況報告書

ゼロ資源での教師なし音響パターン発見のための研究

研究代表者

サクリアニ サクティ 奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] University of Indonesia/Institute Technology Bandung(インドネシア)

国名

外国機関名

[雑誌論文] Neural Oscillation-Based Classification of Japanese Spoken Sentences During Speech Perception2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Electroencephalogram-Based Single Trial Detection of Language Expectation Violations in Listening to Speech2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Quality Prediction of Synthesized Speech Based on Tensor Structured EEG Signals2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Construction of Spontaneous Emotion Corpus from Indonesian TV Talk Shows and Its Application on Multimodal Emotion Recognition2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Sequence-to-Sequence Models for Emphasis Speech Translation2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Dirichlet Process Mixture of Mixtures Model for Unsupervised Subword Modeling2018

著者名/発表者名

雑誌名

DOI

[学会発表] カリキュラムラーニングを用いた音声翻訳の学習戦略の提案2019

著者名/発表者名

学会等名

[学会発表] Machine Speech Chainに基づく半教師あり学習を用いた日英コードスイッチング音声の認識2019

著者名/発表者名

学会等名

[学会発表] Affect-sensitive Dialogue Response Generation for Positive Emotion Elicitation2019

著者名/発表者名

学会等名

[学会発表] Enhancing Neural Machine Translation with Image-based Paraphrase Augmentation2019

著者名/発表者名

学会等名

[学会発表] Speaker and Emotion Recognition of TV-Series Data Using Multimodal and Multitask Deep Learning2019

著者名/発表者名

学会等名

[学会発表] Unifying Speech Recognition and Generation with Machine Speech Chain2019

著者名/発表者名

学会等名

[学会発表] Sequence-to-Sequence ASR Optimization via Reinforcement Learning2018

著者名/発表者名

学会等名

[学会発表] Graph regularized tensor factorization for single-trial EEG analysis2018

著者名/発表者名

学会等名

[学会発表] Construction of English-French Multimodal Affective Conversational Corpus from Drama TV Series2018

著者名/発表者名

学会等名

[学会発表] Multi-modal Muti-task Deep Learning for Speaker and Emotion Recognition of TV-series Data2018

著者名/発表者名

学会等名

[学会発表] Japanese-English Code-Switching Speech Data Construction2018

著者名/発表者名

学会等名

[学会発表] Single-trial Detection of Semantic Anomalies from EEG during Listening to Spoken Sentences2018

著者名/発表者名

学会等名

[学会発表] Compressing End-to-End ASR Networks by Tensor-Train Decomposition2018

著者名/発表者名

学会等名

[学会発表] Optimizing DPGMM Clustering in Zero Resource Setting Based on Functional Load2018

著者名/発表者名

学会等名

[学会発表] Incremental TTS for Japanese Language2018

著者名/発表者名

学会等名

[学会発表] Machine Speech Chain with One-shot Speaker Adaptation2018

2018 年度実施状況報告書

サクリアニサクティ奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)