Research Abstract |
本研究は,TVやラジオの放送音声のように,音声や音楽,その他の音が混入した音響データに対して,音声や音楽の時区間を自動的に識別し,その結果をメタデータ(本来のデータに付加的に与えるデータ)として付与することを目的としている。現在まで,依然として音声・音楽識別に対する決定的な手法が見出されていないことを鑑みて,有用な特徴量の検討,識別手法(アルゴリズム)の検討,実データ(放送音源など)に対する検証,の3つの論点について明らかにすることを目指す。 研究初年度の本年度は,まず,基礎実験に用いるためのデータとして,既存の音声および音楽のデータベースを収集し,実放送音源としでTVやラジオの音声を収録した。評価のため,データの一部に目視で情報内容に関するラベル付けを行なった。このラベル付けは,音声か音楽かのみならず,男声と女声の区別,音楽ジャンル(クラシック,ポピュラーなど),複数音源の重畳なども考慮して行なった。 次に,音声と音楽およびそれらの細分化カテゴリを識別するのに最も有効な音響特徴量として,スペクトル形状に基づく静的特徴と時間変化を表現できる動的特徴の両方について検討した。特に,楽音に特徴的に現れる音高成分に着目し,音響信号中の支配的な周波数成分を検出・追跡し,歌声と音声と音楽とが重畳した場合にも有用な特徴量について検討した。 研究成果の一部は,音声言語処理技術に関する国際会議および電子情報通信学会技術研究報告,日本音響学会講演論文集などに発表した。
|