研究概要 |
情報検索において高性能なインデキシングのために音声、音響等の音源の識別が重要視されている。この音源識別において、これまでにいくつかの音響特徴パラメータが提案されているが、各パラメータの有用性について十分な検討はなされていない。そこで、多種多様の音源が混在したコンテンツの一例として放送コンテンツを用い、音響特徴パラメータとして 1:スペクトルの時間的変化、2:スペクトルの傾き、3:白色雑音との近さ、4:ピッチ、5:パワー、6:中心周波数、7:中心周波数のバンド幅 の個々の有効性を検討した。この結果、音声の検出にはスペクトルの時間的変化が、音楽の検出にはピッチが、雑音の検出には白色雑音との近さが、無音の検出にはパワーが最も有効なパラメータであることが示された。この結果、各音源を最も高精度に検出するパラメータが異なっていることから、パラメータを組み合わせることによる識別精度の向上が予想される。そこで上記のパラメータに関してその組み合わせ効果の検討を行なった。この最適な評価パラメータの組み合わせを決定するための尺度として各音源の検出性能(F値)に評価フレーム数の重みを考慮した評価式を設定し順位付けを行った。この結果、上記のすべての音響特徴パラメータを用いるよりも、パラメータ7を除く6個のパラメータを用いた方が検出性能が良いことがわかった。また、1,3,4,5,6の5個のみのパラメータを用いても良好な検出精度を達成できることを実験的に示した。 また、雑音の検出精度が低いために、雑音を幾つかのクラスタに分割し雑音の検出精度を向上させる実験を行なっている。
|