2005 Fiscal Year Annual Research Report
Project/Area Number |
16700189
|
Research Institution | Chiba Institute of Technology |
Principal Investigator |
大川 茂樹 千葉工業大学, 情報科学部, 助教授 (40306395)
|
Keywords | 音声音楽識別 / 音声認識 / 楽音分析 / 音響特徴量 |
Research Abstract |
本研究は,TVやラジオの放送音声のように,音声や音楽,その他の音が混入した音響データに対して,音声や音楽の時区間を自動的に識別し,その結果をメタデータ(本来のデータに付加的に与えるデータ)として付与することを目的としている。現在に至るまで,依然として音声・音楽識別に対する決定的な手法が見出されていないことを鑑みて,有用な特徴量の検討,識別手法(アルゴリズム)の検討,実データ(放送音源など)に対する検証の3つの論点について明らかにすることを目指す。 研究2年目の本年度は,まず,昨年度に引き続き,基礎実験に用いるためのデータ収集およびラベル付けを行った。音声と音楽およびそれらの細分化カテゴリを識別するのに最も有効な音響特徴量として,スペクトル形状に基づく静的特徴と時間変化を表現できる動的特徴の両方について検討した。特に,楽音に特徴的に現れる音高成分に着目し,音響信号中の支配的な周波数成分を検出・追跡し,歌声や音声と音楽が重畳した揚合にも有用な特徴量を検討・提案した。 次に,音声・音楽識別アルゴリズムとして,混合ガウス分布モデルおよび隠れマルコフモデルなどの統計・確率的モデルの利用について検討した。同時に,モデルのカテゴリを細分化(音楽における楽器やジャンルによるモデルの区別)した実験も行い,いくつかの新しい知見を得た。 研究成果の一部は,音声言語処理技術に関する国際会議および日本音響学会講演論文集などに発表した。
|