• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実績報告書

話者・言語特徴の分離表現に基づく音声強調・認識の統合

研究課題

研究課題/領域番号 20H01159
研究機関国立研究開発法人理化学研究所

研究代表者

關口 航平  国立研究開発法人理化学研究所, 革新知能統合研究センター, テクニカルスタッフ1

研究期間 (年度) 2020-04-01 – 
キーワード音声強調
研究実績の概要

音声認識を用いるシステムの中で、スマートスピーカや対話ロボットなどのように話者がマイクから離れた位置にいる状況が考えられるシステムでは、観測された音声に雑音や残響が混ざってしまうことがあるため、音声認識を頑健に行うために音声強調を行うことが必要となる。近年ではニューラルネットワークを用いた教師あり手法が盛んに研究されているが、この手法では学習データにないような環境で性能が低下する可能性がある。そのため、環境の事前情報を用いず、クリーンな音声の生成過程のみをニューラルネットワークで学習し、それを用いて多チャネル観測音の生成モデルを定式化し、その逆問題を解くことによって各音源信号を推定する手法をこれまでに提案してきた。
この手法を拡張し、音声が話者情報と言語情報から生成されるという生成モデルを考えると、音声強調は話者・言語情報を観測音から推定する問題とみなすことができる。この言語情報を入力とする音声認識器を学習することができれば、話者に依存しないために少ないデータで頑健な音声認識器が学習できる可能性がある。また、音声強調時に話者が既知である場合は、言語情報のみを推定すればよいため解空間が狭まり性能が向上する可能性もある。
そのため本研究ではまず音声の話者・言語情報への分離と、話者・言語情報からの音声の生成過程を学習することを目指した。具体的には、条件付き変分自己符号化器(CVAE)を用いて、入力音声を低次元の潜在表現に変換し、潜在表現から入力の音声を復元するニューラルネットワークを学習する。低次元な潜在表現を時不変な部分と時変な部分で構成し、さらに様々な制約を課すことにより、それぞれを話者情報と言語情報に対応させることを試みた。
言語情報と話者情報への分離は改善の余地が大いにあるものの、この生成モデルを統合した音声強調手法の評価では、多少の性能の改善が確認できた。

  • 研究成果

    (3件)

すべて 2021 2020

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)

  • [雑誌論文] Fast Multichannel Nonnegative Matrix Factorization With Directivity-Aware Jointly-Diagonalizable Spatial Covariance Matrices for Blind Source Separation2020

    • 著者名/発表者名
      Kouhei Sekiguchi, Yoshiaki Bando, Aditya Arie Nugraha, Kazuyoshi Yoshii, Tatsuya Kawahara
    • 雑誌名

      IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING

      巻: 28 ページ: 2610-2625

    • DOI

      10.1109/TASLP.2020.3019181

    • 査読あり / オープンアクセス
  • [学会発表] Semi-supervised Multichannel Speech Separation Based on a Phone- and Speaker-Aware Deep Generative Model of Speech Spectrograms2021

    • 著者名/発表者名
      Yicheng Du, Kouhei Sekiguchi, Yoshiaki Bando, Aditya Arie Nugraha, Mathieu Fontaine, Kazuyoshi Yoshii, Tatsuya Kawahara
    • 学会等名
      2020 28th European Signal Processing Conference (EUSIPCO)
    • 国際学会
  • [学会発表] ARMA-FastMNMFに基づく同時的ブラインド音源分離・残響除去2021

    • 著者名/発表者名
      關口 航平, 坂東 宜昭, ヌグラハ アディティヤ, フォンテーヌ マシュー, 吉井 和佳
    • 学会等名
      日本音響学会 2021年春季研究発表会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi