研究概要 |
ニュース映像音声の自動インデクシング(ニュース記事毎の区分化と記事内容の付与)をターゲットとして,環境音の検出の研究を行った.ニュース音声を用いて環境音のデータベースを構築するとともに,音響特徴パラメータとして従来のパワー,ピッチ等のパラメータの他に,スペクトル相関のパラメータを導入することで,従来法より境音の検出精度(F値)を13.7%向上することができ,音声,音楽,無音を含めたすべての音源に対する検出率も6.6%向上させることができた.また,この検出法(パラメータ)を会議音声の発話区間の検出に対して適用し,クロストークの検出に効果があることを確認した。この結果4〜7人の会議において音声区間の検出精度は2.7%向上した次に,環境音の検出精度を向上させるためにクラスタリング手法を用いて複数の環境音モデルを作成する2つの手法を検討した.一つの手法はフレーム単位の類似性に基づきデータのk-meansクラスタリングを行い,その後音源の時間継続性を考慮した平滑化を行う方式である.他方は人手により種類毎に区別した環境音の音源データをクラスタリングし,その結果を用いて複数のモデルを作成する手法である.環境音を単一のモデルで作成する従来の方法と比較して,環境音の検出精度は前者の手法では2個のモデルの場合に2.7%向上し,後者の手法の場合には4個のモデルを作成した場合に3.9%向上した.また全体の音源の検出精度は0.9%向上した.
|