2015 Fiscal Year Annual Research Report

音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

Research Project

Project/Area Number	25330128
Research Institution	Shizuoka University
Principal Investigator	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
Co-Investigator(Kenkyū-buntansha)	王龍標長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声ドキュメント検索 / 音声検索語検出 / STD / 音声クエリ / 音声認識信頼度 / スコア正規化
Outline of Annual Research Achievements	最終年度では、前年度に引き続きボトムアップ照合で検出する方法との併用による音声ドキュメント検索の精度改善と、音声認識信頼度などの音声認識結果から得られる補助的な特徴量との併用による検索精度の改善に取り組んだ。まず第一段階としての音声認識システムによる事前のインデキシングの精度を改善するため、音声認識システムを従来のGMM-HMMを用いたシステムから、ディープニューラルネットワーク（DNN）を用いたDNN-HMMベースのシステムを構築した。これによって、単語正解精度を10%以上改善してベースラインの検出精度を改善した。更に、ユーザからの検索結果に対するフィードバック情報の利用を想定して、音声クエリによる音声検索語検出において特徴量レベルでの再照合を導入するシステムを提案した。具体的には、DNNによるbottleneck featureを用いた音声特徴抽出モデルや、monophoneの事後確率を推定するDNNを構築することによって音声ドキュメントとクエリの新たな特徴表現を求めて再照合を行う方法を提案した。この方法において、認識結果から得られる情報とあわせて統合スコアを求めることで、検出精度の更なる改善を実現した。特に提案する方法は、事前に自動音声認識システムに適用する際に登録されていない未知語のクエリに対しても効果を示した。したがって、検索システムのユーザから正解事例についてのフィードバックを得ることができれば、提案するボトムアップの照合方法との併用によって検出漏れを削減することが期待できる。

Research Products
(3 results)

All 2016 2015

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition2015
- Author(s)
  Ren, Bo and Wang, Longbiao and Lu, Liang and Ueda, Yuma and Kai, Atsuhiko
- Journal Title
  
  MULTIMEDIA TOOLS AND APPLICATIONS
  
  Volume: 75 Pages: 1-16
- DOI
  10.1007/s11042-015-2849
- Peer Reviewed
[Journal Article] Environment-dependent denoising autoencoder for distant-talking speech recognition2015
- Author(s)
  Yuma Ueda, Longbiao Wang, Atsuhiko Kai and Bo Ren
- Journal Title
  
  EURASIP Journal on Advances in Signal Processing
  
  Volume: 2015 Pages: 1-11
- DOI
  10.1186/s13634-015-0278-y
- Peer Reviewed / Open Access
[Presentation] Combining State-level and DNN-based Acoustic Matches for Efficient Spoken Term Detection in NTCIR-12 SpokenQuery&Doc-2 Task2016
- Author(s)
  Shuji Oishi, Tatsuya Matsuba, Mitsuaki Makino, Atsuhiko Kai
- Organizer
  NTCIR 12 Conference
- Place of Presentation
  学術総合センター（東京）
- Year and Date
  2016-06-08 – 2016-06-10
- Int'l Joint Research

2015 Fiscal Year Annual Research Report

音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

Principal Investigator

甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)

Research Products

[Journal Article] Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition2015

Author(s)

Journal Title

DOI

[Journal Article] Environment-dependent denoising autoencoder for distant-talking speech recognition2015

Author(s)

Journal Title

DOI

[Presentation] Combining State-level and DNN-based Acoustic Matches for Efficient Spoken Term Detection in NTCIR-12 SpokenQuery&Doc-2 Task2016

Author(s)

Organizer

Place of Presentation

Year and Date

甲斐充彦静岡大学, 工学部, 准教授 (60283496)