研究分担者 |
北岡 教英 名古屋大学, 大学院・情報科学研究科, 准教授 (10333501)
山田 武志 筑波大学, 大学院・システム情報工学研究科, 准教授 (20312829)
西浦 敬信 立命館大学, 情報理工学部, 准教授 (70343275)
宮島 千代美 名古屋大学, 大学院・情報科学研究科, 助教 (90335092)
田村 哲嗣 岐阜大学, 工学部, 助教 (10402215)
|
研究概要 |
雑音下音声認識の標準評価基盤(=データ+標準認識手法)であるCENSRECシリーズの開発に関しては,昨年の予備的収録から引き続きロンバード効果音声の本格収録を行った。また、Audio-visual音声認識データベースCENSREC-AVの整備も行った。当初目標の,さまざまな音声劣化要因を体系化すること、および体系化された劣化要因のデータベース化を達成した。CENSRECシリーズの配布総数は数百となっている。そして,これらの成果は,これまでに構築したCENSRECシリーズとともに、COMPUTER PROCESSING OF ASIAN SPOKEN LANGUAGESという書籍中にいくつかのSectionとして紹介されることとなり、本研究のメンバーが著者となり執筆した。 劣化音声の認識手法として,劣化に頑健な特徴抽出法,スペクトルサブトラクションを繰り返し行ってミュージカルノイズと呼ばれる引き残り雑音を低減する手法,音声波形の周波数ごとの位相情報を利用する手法,複数マイクロフォンを用いて空間情報を用いる手法など,さまざまなアプローチを試み,効果を確認した。その一部はデータベースとともにDVDに収録され、パッケージとして公開するという目標を達成した。 さらにこれらの研究成果を元に,日本音響学会誌の小特集「自動音声認識研究の動向と展望」において,「音声認識におけるロバストネス」という解説記事を執筆し,一般的な劣化音声認識の研究動向とともに本研究の成果物である標準評価基盤を紹介した。
|