研究課題
音声認識を用いるシステムの中で、スマートスピーカや対話ロボットなどのように話者がマイクから離れた位置にいる状況が考えられるシステムでは、観測された音声に雑音や残響が混ざってしまうことがあるため、音声認識を頑健に行うために音声強調を行うことが必要となる。近年ではニューラルネットワークを用いた教師あり手法が盛んに研究されているが、この手法では学習データにないような環境で性能が低下する可能性がある。そのため、環境の事前情報を用いず、クリーンな音声の生成過程のみをニューラルネットワークで学習し、それを用いて多チャネル観測音の生成モデルを定式化し、その逆問題を解くことによって各音源信号を推定する手法をこれまでに提案してきた。この手法を拡張し、音声が話者情報と言語情報から生成されるという生成モデルを考えると、音声強調は話者・言語情報を観測音から推定する問題とみなすことができる。この言語情報を入力とする音声認識器を学習することができれば、話者に依存しないために少ないデータで頑健な音声認識器が学習できる可能性がある。また、音声強調時に話者が既知である場合は、言語情報のみを推定すればよいため解空間が狭まり性能が向上する可能性もある。そのため本研究ではまず音声の話者・言語情報への分離と、話者・言語情報からの音声の生成過程を学習することを目指した。具体的には、条件付き変分自己符号化器(CVAE)を用いて、入力音声を低次元の潜在表現に変換し、潜在表現から入力の音声を復元するニューラルネットワークを学習する。低次元な潜在表現を時不変な部分と時変な部分で構成し、さらに様々な制約を課すことにより、それぞれを話者情報と言語情報に対応させることを試みた。言語情報と話者情報への分離は改善の余地が大いにあるものの、この生成モデルを統合した音声強調手法の評価では、多少の性能の改善が確認できた。
すべて 2021 2020
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING
巻: 28 ページ: 2610-2625
10.1109/TASLP.2020.3019181