2011 Fiscal Year Annual Research Report
プライバシー情報を隠蔽するための音声処理に関する研究
Project/Area Number |
21700192
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
山本 一公 豊橋技術科学大学, 大学院・工学研究科, 助教 (40324230)
|
Keywords | プライバシー保護 / センサ情報 / 音声信号処理 / 遠隔発話音声 / 音源分離 / 非負値行列因子分解 / 話者認識 / 残響除去 |
Research Abstract |
公共の場で収録される音・音声情報が有効に活用できる場面は多いと考えられるが、プライバシーの問題を感じる人が多いため、現在のところあまり利用されていない。本研究では、音・音声情報から、プライバシー情報(話者を推定し得る情報)を隠蔽することを目的として、音信号から音声・背景音を分離することでプライバシーを保護する「音声除去」、音声信号を別人の音声に変えることでプライバシーを保護する「声質変換」、音声認識することで言語的なプライバシー情報を保護する技術について検討を進めてきた。 音信号から音声と背景音を分離するためには、ネット上の音声が収録済みの音声・背景音混合音声であることから、シングルチャネルで音声と背景雑音を分離する技術が必要である。これまではベクトル量子化(VQ)に基づく手法であったが、昨年度非負値行列因子分解(NMF)を導入し、性能の向上を図った。今年度は更に、音声認識においてNMFとVQを併用(認識尤度の線型結合)による音声認識性能の改善を行った。また、NMFは行列の分解に要する計算量が多く、実用的なアプリケーションでは用いにくいため、NMFの高速化についても検討を行った。具体的には、音声と背景音のデータベースから、NMFの基底だけでなく代表ベクトルに対する重みも同時に事前に算出しておき、入力ベクトルに最もマッチする代表ベクトルの重みを用いてフィルタを構成する。これにより、リアルタイム処理が可能となった。 また、プライバシーを保護するためには誰が喋っているかを知る必要があるため、実環境下話者認識の性能改善を行った。本年度は、残響環境下音声に対して、過去の数フレームから現在の残響音響特徴を予測できると仮定した線形予測モデルの逆フィルタ処理による残響除去を試みた。これにより、残響音響下での話者認識性能の向上を得た。
|
Research Products
(6 results)