• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

Research Project

Project/Area Number 25330128
Research InstitutionShizuoka University

Principal Investigator

甲斐 充彦  静岡大学, 工学部, 准教授 (60283496)

Co-Investigator(Kenkyū-buntansha) 王 龍標  長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)
Project Period (FY) 2013-04-01 – 2016-03-31
Keywords音声ドキュメント検索 / 音声検索語検出 / STD / 音声クエリ / 音声認識信頼度 / スコア正規化
Outline of Annual Research Achievements

最終年度では、前年度に引き続きボトムアップ照合で検出する方法との併用による音声ドキュメント検索の精度改善と、音声認識信頼度などの音声認識結果から得られる補助的な特徴量との併用による検索精度の改善に取り組んだ。まず第一段階としての音声認識システムによる事前のインデキシングの精度を改善するため、音声認識システムを従来のGMM-HMMを用いたシステムから、ディープニューラルネットワーク(DNN)を用いたDNN-HMMベースのシステムを構築した。これによって、単語正解精度を10%以上改善してベースラインの検出精度を改善した。更に、ユーザからの検索結果に対するフィードバック情報の利用を想定して、音声クエリによる音声検索語検出において特徴量レベルでの再照合を導入するシステムを提案した。具体的には、DNNによるbottleneck featureを用いた音声特徴抽出モデルや、monophoneの事後確率を推定するDNNを構築することによって音声ドキュメントとクエリの新たな特徴表現を求めて再照合を行う方法を提案した。この方法において、認識結果から得られる情報とあわせて統合スコアを求めることで、検出精度の更なる改善を実現した。特に提案する方法は、事前に自動音声認識システムに適用する際に登録されていない未知語のクエリに対しても効果を示した。したがって、検索システムのユーザから正解事例についてのフィードバックを得ることができれば、提案するボトムアップの照合方法との併用によって検出漏れを削減することが期待できる。

  • Research Products

    (3 results)

All 2016 2015

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition2015

    • Author(s)
      Ren, Bo and Wang, Longbiao and Lu, Liang and Ueda, Yuma and Kai, Atsuhiko
    • Journal Title

      MULTIMEDIA TOOLS AND APPLICATIONS

      Volume: 75 Pages: 1-16

    • DOI

      10.1007/s11042-015-2849

    • Peer Reviewed
  • [Journal Article] Environment-dependent denoising autoencoder for distant-talking speech recognition2015

    • Author(s)
      Yuma Ueda, Longbiao Wang, Atsuhiko Kai and Bo Ren
    • Journal Title

      EURASIP Journal on Advances in Signal Processing

      Volume: 2015 Pages: 1-11

    • DOI

      10.1186/s13634-015-0278-y

    • Peer Reviewed / Open Access
  • [Presentation] Combining State-level and DNN-based Acoustic Matches for Efficient Spoken Term Detection in NTCIR-12 SpokenQuery&Doc-2 Task2016

    • Author(s)
      Shuji Oishi, Tatsuya Matsuba, Mitsuaki Makino, Atsuhiko Kai
    • Organizer
      NTCIR 12 Conference
    • Place of Presentation
      学術総合センター(東京)
    • Year and Date
      2016-06-08 – 2016-06-10
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi