「聴覚情景解析」とは、複数の音声(あるいは楽音)や雑音が混在するモノラル音から特定の音声のみを分離し聴き取ることができる、人間の優れた聴覚能力を工学的に実現しようとする研究の枠組みである。本研究は、これを実現するための基礎技術として、音声のもつ擬似周期性(周期性を主成分としながら振幅やピッチが絶えず変化する波形特性)を考慮した最適フィルタの設計を土台に、各音脈を個別に追跡する動的機能を併せもった適応フィルタの開発を目指すものである。本年度はその準備として、楽音や音声の擬似周期性を最もよく表現する「振幅変動+ピッチ変動]モデルを提案し、これに基づく線形最適フィルタを導いた。 まず、定常不規則な変動を仮定することによりウィーナーフィルタの設計を行った。そこでは、得られたフィルタの周波数特性が定BW/定Q複合櫛形特性を有すること、特にフィルタ係数を適切に設定すると、各バンドパスフィルタの占有帯域幅が聴覚末梢系のもつ非線形な周波数特性によく適合することを明らかにした(電子情報通信学会論文誌に投稿中)。さらに、不規則な微視的変動に加え既知の緩やかな巨視的変化を許容した時変型「振幅変動+ピッチ変動」モデルに対して、伊藤型の確率微分方程式を導入することによりカルマンフィルタを導いた。特に、倍音間の干渉を考慮した厳密解について考察した結果、干渉を互いに排除するためのノッチ特性が新たに現れることを示した。議論の正しさは、倍音間の干渉を無視したときの定常解がウィーナーフィルタ解に一致することにより確かめられた(ICASSP′01にて発表予定)。 以上の成果を踏まえ次年度は、混合音中の特定音を抽出するフィルタシステムを構築し、音声認識のフロントエンドとして有用性を検証する予定である。
|