研究課題
本研究では、多様な発話形式に頑健な話者クラスタリングを実現するために、音声データに含まれる音韻性と話者性に着目した。音声データから音韻性と話者性を分離することができれば、音韻性を抑制することで話者性をより強調することができると考えられる。話者識別と話者照合においては、主成分分析により得られる分散が大きい空間は音韻性、分散が小さい空間は話者性を表しているとみなして、音韻性を抑制した話者空間に音声データを射影し、話者空間上でGMM(Gaussian Mixture Model)を学習する手法が提案され、有効性が示されている。しかしながら、従来の話者クラスタリング手法では音韻性と話者性の分離という観点で処理されてこなかった。また、多人数会話では発話ごとに発話時間が異なるため、発話に含まれる音韻のばらつきが話者モデルを構築する際に影響を与えると考えられる。そこで、発話ごとに発話内分散を考慮した話者空間を構築し、統計的手法であるGMMを学習することで音韻による影響を抑えた話者クラスタリング手法を提案した。日本語話し言葉コーパスに含まれる講演音声を用いて、任意の長さの無音区間で音声を区切り、複数名の話者の発話順がランダムになるように音声データを作成し、1セットあたり5名と10名からなる疑似的な討論音声データを作成した。これらの疑似的な討論音声データを用いて評価実験を行った結果、従来のBIC(Bayesian Information Criterion)に基づく手法ならびに通常のGMMに基づく手法に比べて、提案手法によりクラスタリング性能が改善され、話者数が5名ならびに10名のいずれにおいても90%以上と高い精度を得ることができた。したがって、提案手法により多様な発話形式に頑健な話者クラスタリングを実現することができた。
すべて 2016 2015
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (7件) (うち国際学会 4件)
Trans. IEICE
巻: Vol.E98-D, No. 12 ページ: 2271-2279
10.1587 / transinf.2015EDP7061