研究課題
基盤研究(B)
本研究では、言語系に依存しない汎用音声符号系とその音響モデルの開発を行ない、この汎用音声符号系に基いて、音声認識や音声検索などの応用システムを開発するという目標を掲げた。特に、すべての音声を一旦、この汎用音声符号系に符号化し、その上に応用システムを構築するという本研究独自の柔軟な処理方式を活かした語彙に依存しない「語彙フリー音声検索システム」の開発に注力した。今年度は最終年度であり、システムの構築と性能評価、および本方式の拡張について検討し、ほぼ当初の目標を達成した。まず、語彙フリー音声検索システムを用いて、提案した汎用音声符号系「Sub-Phonetic Segment (SPS)」が他の音声記述単位である音節や音素(triphoneを含む)、さらには半音素・1/3音素など考え得る音響モデルに比べても性能上優位にあることを検証した。本方式では、検索クエリーを音声入力する方法、キーボード入力する方法のどちらも可能であり、また、検索対象ドキュメントもそれが音声である場合、テキストである場合のいずれにも適用可能である。この語彙フリー音声検索システムの応用として、ニュース放送などのビデオ検索システム、災害放送音声検索システムを試作し、人名や地域名など辞書に未登録の語彙外音声による情報検索が可能であることを実証した。ビデオ検索システムは産業技術総合研究所「明日の技術点」などで公開した。また、システムのロバスト性を向上させる目的で、複数マイクロホン入力に対するディジタル信号処理を用いた雑音除去手法を開発した。本プロジェクトで開発した特徴抽出手法、音声記述単位SPS、時系列高速マッチング手法などは広く応用できる手法であり、カーネル主成分分析と組み合わせた音声ドキュメント分割法の開発、また、楽曲境界検出・検索、類似医薬品名の警告提示、環境音の分析・認識などへ適用し有効性を評価した。
すべて 2006 2005 2004 2003 その他
すべて 雑誌論文 (22件) 図書 (2件) 産業財産権 (1件)
International Journal of Speech Communication Accepted, In publication
Proc. of International Conference on Acoustics, Speech, and Signal Processing (IEEE ICASSP2005) 1
ページ: 505-508
Multimedia Systems,ISSN : 0942-4962 10・5
ページ: 432-443
Proc. of IASTED International Conference on Signal and Image Processing, 1
ページ: 34-39
Proceedings of Interspeech2005 1
ページ: 589-592
Proc.,of International Conference on Acoustics, Speech, and Signal Processing (IEEE ICASSP2005) Vol.1
Multimedia Systems ISSN:0942-4962 Vol.10, No.5
Proc.of IASTED International Conference on Signal and Image Processing
Proc.of Interspeech2005
Proc. of 18th International Congress on Acoustics(ICA2004) 2
ページ: 1723-1726
Journal of Acoustical Society of America(JASA) 116-2
ページ: 1234-1243
Proc. of 6th International Conference on Enterprise Information Systems CD-ROM
ページ: 1-7
Proc.of 18th International Congress on Acoustics (ICA2004) Vol.II
Journal of Acoustical Society of America (JASA) Vol.116, No.2
Proc.,of 6th International Conference on Enterprise Information Systems (CD-ROM)
電子情報通信学会論文誌D-II J85-D-II No.9
ページ: 1267-1277
Proc. of the European Conference on Speech Communication and Technology 4
ページ: 2485-2488
Proc. of 7th European Conference on Speech Communication 2
ページ: 781-784
IEICE Trans.Information and Systems (Japanese Ed.) Vol.J89-D, No.3
Proc.of the European Conference on Speech Communication and Technology
Proceedings of 7th European Conference on Speech Communication and Technology
International Journal of Speech Communication (Accepted, in publication)