公共の場で収録される音・音声情報が有効に活用できる場面は多いと考えられるが、プライバシーの問題を感じる人が多いため、現在のところあまり利用されていない。本研究では、音・音声情報から、プライバシー情報(話者を推定し得る情報)を隠蔽することを目的として、音信号から音声・背景音を分離することでプライバシーを保護する「音声除去」、音声信号を別人の音声に変えることでプライバシーを保護する「声質変換」、音声認識することで言語的なプライバシー情報を保護する技術について検討を進めてきた。 音信号から音声と背景音を分離するためには、ネット上の音声が収録済みの音声・背景音混合音声であることから、シングルチャネルで音声と背景雑音を分離する技術が必要である。これまでの研究では、背景音が雑音の場合についての音声除去手法を開発・評価してきた。これに対して本年度は、背景音が音楽である場合の分離を目指して、これまでに開発してきたベクトル量子化(VQ)に基づく音声除去手法と非負値行列因子分解(NMF)に基づく音源分離手法について比較・検討を行った。その結果、同等のスペクトル歪値が得られる結果に対して、NMFに基づく手法では音声・背景音楽が同等に歪むのに対して、VQに基づく手法では若干音声が残るものの背景音楽が歪むことはないことが分かった。背景音楽を除去して音声認識を行う場合には、VQに基づく手法がNMFに基づく手法を上回る性能を示したが、このことが理由であると考えられる。 また、プライバシーを保護するためには誰が喋っているかを知る必要があるため、実環境下話者認識の性能改善を行った。本年度は、位相情報の利用、有声音区間のみの利用により認識率を向上させることを試みた。その結果、残響が存在する環境での位相の利用は基本的に難しいが、有声音の区間だけを用いるならば位相情報の併用も有用であることが分かった。
|