• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実施状況報告書

ゼロ資源での教師なし音響パターン発見のための研究

研究課題

研究課題/領域番号 17K00237
研究機関奈良先端科学技術大学院大学

研究代表者

サクリアニ サクティ  奈良先端科学技術大学院大学, 情報科学研究科, 特任准教授 (00395005)

研究分担者 中村 哲  奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
研究期間 (年度) 2017-04-01 – 2020-03-31
キーワード音声認識 / ゼロ資源音声技術 / 脳波
研究実績の概要

2020年東京オリンピック・パラリンピックが近づくにつれ、海外からの観光客との言葉の壁はますます深刻な問題となっている。現在の音声認識・音声翻訳技術は、リソースが大きい言語についてはすでに容易に利用できるため、ここでは言語特有の知識も書き起こしデータもないようなゼロ資源の音声処理の問題を対象とする。教師なし音響ユニットモデリングやパターン発見技術は存在するが、実際に言語的および意味的表現との関連まではまだ開発されていないため、本研究では未知言語の音声と意味表現を結びつける手段としてEEG 解析に基づく認知知識をゼロ資源モデリングに組み込む手法について提案し、フレームワークを完成させ複数言語での応用を実証する。2017年度は、自然言語処理および認知科学に関する文献調査、ならびに言語および音声の認知についてアフリカ言語(ツォンガ語など)のゼロ資源モデリングおよびEEG 解析の設計およびシステム構築、Dirichlet プロセスのガウス混合モデルを中心に、音声特徴ベクトルをクラスター化してクラスの動的なセットを行った。各クラスを音響単位とみなすことにより、音声は、クラス後立腺系列として表すことができる。この最適化により、サブワードモデリングの品質が大幅に向上することが示された。この研究手法は、ゼロ資源のスピーチチャレンジに参加して最高のパフォーマンスを達成し、コンペティションに優勝したことで示される。また、脳波検査を用いて日本語の文章を判別する実験を行った。この実験では、テンプレートマッチングと分類器を使用して、さまざまな設定でのパフォーマンスを調査した。さらに話者依存についても実験を行った。さらに、シータ、アルファ、ベータ、低ガンマ、およびすべての周波数帯の組み合わせを含む複数の周波数帯で実験を行った結果、複数の組み合わせの周波数帯が最も良い結果を示した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

当初計画にあったアフリカ言語(ツォンガ語)のゼロリソースモデリングの構築に成功した。さらに、英語、ドイツ語、フランス語、中国語、アフリカ言語を含むゼロリソースの音声チャレンジに勝つことができた。EEG分析に関しては、日本語の分析は予定通り進んだ。ただし、アフリカ系言語のような低資源言語は国内で被験者を見つけるのが難しく課題として残る。

今後の研究の推進方策

2018年と2019年に以下の研究活動を継続する。
2018年度: ゼロ資源モデリングの構築とEEG 実験の継続、認知知識ソースの解析、およびゼロ資源モデリングへの知識統合のための設計検討
2019年度: 提案フレームワークの完成、性能検討、複数言語での応用について実証実験。最終的にはツォンガ語から日本語/英語への音声翻訳ができるシステムを開発する。

  • 研究成果

    (20件)

すべて 2018 2017 その他

すべて 国際共同研究 (1件) 雑誌論文 (10件) (うち国際共著 10件、 査読あり 10件、 オープンアクセス 4件) 学会発表 (8件) (うち国際学会 8件) 産業財産権 (1件)

  • [国際共同研究] University of Indonesia/Institute Technology Bandung(Indonesia)

    • 国名
      インドネシア
    • 外国機関名
      University of Indonesia/Institute Technology Bandung
  • [雑誌論文] Graph Regularized Tensor Factorization for Single-trial EEG Analysis2018

    • 著者名/発表者名
      Hayato Maki, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceeding of International Conference on Acoustic, Speech, and Signal Processing (ICASSP)

      巻: Vol. 1 ページ: -

    • 査読あり / 国際共著
  • [雑誌論文] Quality Prediction of Synthesized Speech Based on Tensor Structured EEG Signals2018

    • 著者名/発表者名
      Hayato Maki, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Transaction of PLOS One

      巻: Vol. 1 ページ: -

    • 査読あり / 国際共著
  • [雑誌論文] Subject-independent Classification of Japanese Spoken Sentences by Multiple Frequency Bands Phase Pattern of EEG Response during Speech Perception2017

    • 著者名/発表者名
      Hiroki Watanabe, Hiroki Tanaka, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceeding of INTERSPEECH 2017

      巻: Vol.1 ページ: pp. 2431-2435

    • DOI

      10.21437/Interspeech.2017-854

    • 査読あり / 国際共著
  • [雑誌論文] Speech Recognition Features Based On Deep Latent Gaussian Models2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceeding of IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2017)

      巻: Vol.1 ページ: -

    • DOI

      10.1109/MLSP.2017.8168174

    • 査読あり / 国際共著
  • [雑誌論文] Local Monotonic Attention Mechanism for End-to-End Speech and Language Processing2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceedings of the The 8th International Joint Conference on Natural Language Processing

      巻: Vol. 1 ページ: pp. 431-440

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] End-to-End Speech Recognition with Local Monotonic Attention2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceedings of NIPS Workshop on Machine Learning for Audio Signal Processing (ML4Audio)

      巻: なし ページ: -

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Listening while Speaking: Speech Chain by Deep Learning2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceedings of IEEE Automatic Speech Recognition and Understanding (ASRU)

      巻: Vol. 1 ページ: -

    • DOI

      10.1109/ASRU.2017.8268950

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Attention-based Wav2Text with Feature Transfer Learning2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceedings of IEEE Automatic Speech Recognition and Understanding (ASRU)

      巻: Vol. 1 ページ: -

    • DOI

      10.1109/ASRU.2017.8268951

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Feature Optimized DPGMM Clustering for Unsupervised Subword Modeling: A Contribution to ZeroSpeech 20172017

    • 著者名/発表者名
      Michael Heck, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Proceedings of IEEE Automatic Speech Recognition and Understanding (ASRU)

      巻: Vol. 1 ページ: -

    • DOI

      10.1109/ASRU.2017.8269011

    • 査読あり / 国際共著
  • [雑誌論文] Learning Supervised Feature Transformations on Zero Resources for Improved Acoustic Unit Discovery2017

    • 著者名/発表者名
      Michael Heck, Sakriani Sakti, Satoshi Nakamura
    • 雑誌名

      Transaction on Information and Systems

      巻: Vol.E101-D ページ: -

    • DOI

      10.1587/transinf.2017EDP7175

    • 査読あり / 国際共著
  • [学会発表] Graph Regularized Tensor Factorization for Single-trial EEG Analysis2018

    • 著者名/発表者名
      Hayato Maki
    • 学会等名
      International Conference on Acoustic, Speech, and Signal Processing (ICASSP)
    • 国際学会
  • [学会発表] Subject-independent Classification of Japanese Spoken Sentences by Multiple Frequency Bands Phase Pattern of EEG Response during Speech Perception2017

    • 著者名/発表者名
      Hiroki Watanabe
    • 学会等名
      INTERSPEECH
    • 国際学会
  • [学会発表] Speech Recognition Features Based On Deep Latent Gaussian Models2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti
    • 学会等名
      IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2017)
    • 国際学会
  • [学会発表] Local Monotonic Attention Mechanism for End-to-End Speech and Language Processing2017

    • 著者名/発表者名
      Andros Tjandra
    • 学会等名
      the International Joint Conference on Natural Language Processing (IJCNLP 2017)
    • 国際学会
  • [学会発表] End-to-End Speech Recognition with Local Monotonic Attention2017

    • 著者名/発表者名
      Andros Tjandra
    • 学会等名
      NIPS Workshop on Machine Learning for Audio Signal Processing (ML4Audio)
    • 国際学会
  • [学会発表] Listening while Speaking: Speech Chain by Deep Learning2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • 学会等名
      IEEE Automatic Speech Recognition and Understanding (ASRU)
    • 国際学会
  • [学会発表] Attention-based Wav2Text with Feature Transfer Learning2017

    • 著者名/発表者名
      Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
    • 学会等名
      IEEE Automatic Speech Recognition and Understanding (ASRU)
    • 国際学会
  • [学会発表] Feature Optimized DPGMM Clustering for Unsupervised Subword Modeling: A Contribution to ZeroSpeech 20172017

    • 著者名/発表者名
      Michael Heck, Sakriani Sakti
    • 学会等名
      IEEE Automatic Speech Recognition and Understanding (ASRU)
    • 国際学会
  • [産業財産権] 国立大学法人 奈良先端科学技術大学院大学2017

    • 発明者名
      アンドロスチャンドラ, サクリアニサクティ,中村哲
    • 権利者名
      アンドロスチャンドラ, サクリアニサクティ,中村哲
    • 産業財産権種類
      特許
    • 産業財産権番号
      特願2018-1538

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi