研究課題/領域番号 |
22650034
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, 大学院・工学研究科, 教授 (20115893)
|
研究分担者 |
山本 一公 豊橋技術科学大学, 大学院・工学研究科, 助教 (40324230)
土屋 雅稔 豊橋技術科学大学, 情報メディア基盤センター, 助教 (70378256)
|
キーワード | 音声除去 / 音声抽出 / 音源分離 / 背景音除去 / VQ / NMF / プライバシ処理 / 音声認識 |
研究概要 |
音声言語情報に含まれる主なプライバシ情報は、発声内容と話者の個人性である。今年度は、昨年度に引き続き、背景雑音中の音声から音声だけを除去する、いわゆる音源分離の研究に取り組んだ。まず、VQ手法と非負値行列因子分解(NMF)によって音楽重畳音声から音声を取り出す研究を改善した。改善内容は、(1)両手法共に、単に音声部分だけを再構成するのではなく、原音と推定値からウィナーフィルター方式による推定に変更したこと、(2)頑健な推定を行うために、ウィナーフィルターにスムーズイング法を導入したこと、である。これにより、音声の抽出・除去精度が向上した。 NMF法の大きな欠点は大量の計算を必要とし、実時間処理が不可能なことである。これを高速化するために、NMF法にVQ手法を導入した。つまり、音声や音楽の基底ベクトルを、音声や音楽のVQコードベクトルで定義し、しかも音楽重畳音声もVQコードブック化し、このコードベクトルに関して、予めNMFで音声と音楽に分解しておく方法である。これにより、音楽重畳音声入力に対し、VQ化するだけで、実時間で音声を抽出(除去)出来るようになった。 本手法を評価するために、不特定話者が発声した単語音声にピアノ3重奏の背景音を-5dB,0dB,10dB,20dBで重畳し、音声認識実験を行った。音源分離を行わないと音声認識率は20dBで85.6%(10dBで56.3%)であったのが、本手法を適用することにより91.4%(74.5%)まで、向上きせることができた。さらに、音楽重畳音声で学習したモデルを用いた場合では、それぞれ97.8%(92.4%)から98.4%(95.0%)まで改善することができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
音楽重畳音声から音声を除去する技術と音声のみを抽出する技術はほぼ等価である。音声抽出技術としてVQ手法の改善とNMFの高速化に成果が得られた。
|
今後の研究の推進方策 |
現段階はピアノ3重奏が重畳された音声からの音声の除去の研究であるが、これをもっと一般的な音楽や背景音に拡張するために、背景音と基底ベクトルの算出法を検討して行く必要がある。
|