2005 Fiscal Year Annual Research Report
汎用音声符号系を用いた音声の統一的符号化と音声処理応用システムの研究
Project/Area Number |
15300026
|
Research Institution | University of Tsukuba |
Principal Investigator |
田中 和世 筑波大学, 大学院・図書館情報メディア研究科, 教授 (70344207)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 慶明 岩手県立大学, ソフトウエア情報学部, 助教授 (90325928)
大川 茂樹 千葉工業大学, 情報科学部, 助教授 (40306395)
児島 宏明 独立行政法人産業技術総合研究所, 情報技術研究部門, グループリーダ (80356980)
|
Keywords | 汎用音声符号 / 音声検索 / 音声認識 / 高速マッチング / 音声音響モデル / 多言語音声処理 |
Research Abstract |
本研究では、言語系に依存しない汎用音声符号系とその音響モデルの開発を行ない、この汎用音声符号系に基いて、音声認識や音声検索などの応用システムを開発するという目標を掲げた。特に、すべての音声を一旦、この汎用音声符号系に符号化し、その上に応用システムを構築するという本研究独自の柔軟な処理方式を活かした語彙に依存しない「語彙フリー音声検索システム」の開発に注力した。今年度は最終年度であり、システムの構築と性能評価、および本方式の拡張について検討し、ほぼ当初の目標を達成した。 まず、語彙フリー音声検索システムを用いて、提案した汎用音声符号系「Sub-Phonetic Segment(SPS)」が他の音声記述単位である音節や音素(triphoneを含む)、さらには半音素・1/3音素など考え得る音響モデルに比べても性能上優位にあることを検証した。本方式では、検索クエリーを音声入力する方法、キーボード入力する方法のどちらも可能であり、また、検索対象ドキュメントもそれが音声である場合、テキストである場合のいずれにも適用可能である。 この語彙フリー音声検索システムの応用として、ニュース放送などのビデオ検索システム、災害放送音声検索システムを試作し、人名や地域名など辞書に未登録の語彙外音声による情報検索が可能であることを実証した。ビデオ検索システムは産業技術総合研究所「明日の技術点」などで公開した。 また、システムのロバスト性を向上させる目的で、複数マイクロホン入力に対するディジタル信号処理を用いた雑音除去手法を開発した。 本プロジェクトで開発した特徴抽出手法、音声記述単位SPS、時系列高速マッチング手法などは広く応用できる手法であり、カーネル主成分分析と組み合わせた音声ドキュメント分割法の開発、また、楽曲境界検出・検索、類似医薬品名の警告提示、環境音の分析・認識などへ適用し有効性を評価した。
|
Research Products
(20 results)