Budget Amount *help |
¥2,900,000 (Direct Cost: ¥2,900,000)
Fiscal Year 2006: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2005: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2004: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Research Abstract |
本研究は,TVやラジオの放送音声のように,音声や音楽,その他の音が混入した音響データに対して,音声や音楽の時区間を自動的に識別し,その結果をメタデータ(本来のデータに付加的に与えるデータ)として付与することを目的としている。現在に至るまで,依然として音声・音楽識別に対する決定的な手法が見出されていないことを鑑みて,有用な特徴量の検討,識別手法(アルゴリズム)の検討,実データ(放送音源など)に対する検証,の3つの論点について明らかにすることを目指す。 研究最終年度の本年度は,有用な特徴量の検討として,前年度に検討した音響信号中に支配的に現れる周波数成分の追跡手法に加えて,信号の瞬時位相成分の時間変化に着目し,基礎的な音カテゴリ識別実験および短音節・連続単語に対する音声認識実験を通して,その有用性および識別性能を検討した。 さらに,音声・音楽識別のためのアルゴリズムの検討として,混合ガウス分布や隠れマルコフモデルなどを利用した統計確率的モデルについての実験および評価を行うとともに,新たにニューラルネットワークと隠れマルコフモデルをハイブリッドに組み合わせたTRAPsモデルに関する検討を行った。 これらの実験的検討により,音声・音楽識別,音カテゴリ識別,および音声認識に関するいくつかの新しい知見を得た。当初の研究計画で挙げた論点のうち,有用な特徴量の検討,識別手法の検討の2つについて,目標をほぼ達成し得たものと考える。研究成果の一部は,音声言語技術に関する国際会議および日本音響学会講演論文集などに発表した。
|