臨場音の配信や、ロコミ情報の収集など、公共の場で音・音声情報が有効に活用できる場面は多いと考えられるが、公共の場にマイクロホンを設置することについては嫌悪感(プライバシの問題)を感じる人が多いため、現在のところ公共の場での音情報はあまり利用されていない。本研究では、音・音声情報かち、プライバシ情報(話者を推定し得る情報)を隠蔽し、それ以外の情報だけを持つようにリアルタイムに修正した音(音声)を提示するシステムを開発することを目的とする。 センサとしてマイクロホンは通、者かられた位置にあると考えられる。そのため、音声に含まれる言語的なプライバシ情報を頑健に抽出するためには、高精度な遠隔発話音声認識技術が必要となる。本年度は、従来開発してきた技術を改良することで、推定した話者方向・位置から、高精度に音声認識を行うための技術を開発した。まず、ニューラルネットワークにより話者位置と話者方向を同時推定する方法を開発した。そして、推定した話者位置を用いてビームフォーミングによる音声強調・音声認識を行うシステムを構築した。また、短い発話に対してもケプストラム平均正規化手法が有効に働くように、ガウス混合モデル(CMM)を用いて平均ケプストラムベクトルを補正することで音声認識性能を改善する技術を開発した。 収録した音声に含まれる個人性情報からプライバシ侵害が発生することを避けるためには、声質変換システムが必要である。本年度は、従来開発してきたGMM基づく声質変換ジズテムに対して、計算量消減による高速化、GMMの高精度化による声質変換精度の向上を達成しだ。また、周囲環境音をセンサ情報として活用するための音声除去システムもについて、本年度は昨年度までに開発したシステムに対して帯域の拡張を行う等の高精度化を行った。これらの基礎システムを被験者実験により評価し、効果を確認した。
|