• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Research-status Report

音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

Research Project

Project/Area Number 25330128
Research InstitutionShizuoka University

Principal Investigator

甲斐 充彦  静岡大学, 工学研究科, 准教授 (60283496)

Co-Investigator(Kenkyū-buntansha) 王 龍標  長岡技術科学大学, その他部局等, 准教授 (30510458)
Project Period (FY) 2013-04-01 – 2016-03-31
Keywords音声ドキュメント検索 / 音声検索語検出 / 音声区間検出 / 雑音残響環境 / 残響除去 / DNN / 認識精度推定
Outline of Annual Research Achievements

多様な環境で収録される音声データのまとまり(音声ドキュメント)に対して、クエリとしての言葉が発話された区間を検出するために用いるインデキシングを改善していくシステムを構築するため、関連する要素技術の改良を進めた。当年度の研究実施計画のとおり、実環境で収録された雑音や残響の影響を含むデータを実験用データに加えて以下のようなサブテーマに取り組んだ。まず、前年度までの成果として開発したDeep Neural Networkを用いた音声区間検出手法を、実際に会議室環境で収録された遠隔収録の音声データに対して適用した。そして、教師なしでの環境適応を実現するためクロス適応の考え方を導入した改善手法を提案し、複数の会議室環境の実データを用いた評価実験によって提案手法の有効性を示した。また、前年度に引き続き、複数の話者が混在する音声データから話者別に分類する話者ダイアライゼーションの改良を進めた。具体的には、複数の会議室で実際に収録された接話マイクロフォンと遠隔マイクロフォンの音声データのパラレルデータを用いて、denoising autoencoderの特徴正規化手法を応用して収録環境の違いによる特徴変動を削減するDNNを学習し、遠隔収録音声の話者ダイアライゼーションの前処理として用いることで精度を改善することを示した。更に、インデックス信頼度の評価手法の開発に関連して、音声認識結果から推定できる信頼度や発話速度などの発話固有の特徴を抽出して、話者固有の認識精度を推定するモデルの開発を進めた。約130名の話者の単語音声データを用いた評価実験によって、話者単位で約50%近い変動を持つ認識精度の違いを小さい誤差で推定できることを示した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初の予定のようにこれまで開発してきた内容について実環境収録音声データを用いて環境適応化を含めた評価や信頼度推定などの要素技術の開発を進めることができた。

Strategy for Future Research Activity

これまでに開発してきた要素技術をもとに、最終年度までに予定しているコンテンツ作成支援につながるインデックス信頼度推定やインタフェースを含むシステム開発を進める。

  • Research Products

    (11 results)

All 2015 2014

All Journal Article (6 results) (of which Peer Reviewed: 5 results,  Open Access: 2 results) Presentation (5 results)

  • [Journal Article] Distant-talking speaker identification by generalized spectral subtraction-based dereverberation and its efficient computation2014

    • Author(s)
      Zhaofeng Zhang, Longbiao Wang and Atsuhiko Kai
    • Journal Title

      EURASIP Journal on Audio, Speech, and Music Processing

      Volume: 2014:15 Pages: 1-12

    • DOI

      10.1186/1687-4722-2014-15

    • Peer Reviewed / Open Access
  • [Journal Article] Combining Subword and State-level Dissimilarity Measures for Improved Spoken Term Detection in NTCIR-11 SpokenQuery&Doc Task2014

    • Author(s)
      Mitsuaki Makino and Atsuhiko Kai
    • Journal Title

      Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies

      Volume: - Pages: 413-418

    • Open Access
  • [Journal Article] Utilizing State-level Distance Vector Representation for Improved Spoken Term Detection by Text and Spoken Queries2014

    • Author(s)
      Mitsuaki Makino, Naoki Yamamoto, Atsuhiko Kai
    • Journal Title

      Proceedings of the 15th Annual Conference of the International Speech Communication Association (INTERSPEECH 2014)

      Volume: - Pages: 1732-1736

    • Peer Reviewed
  • [Journal Article] Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording2014

    • Author(s)
      Longbiao Wang, Bo Ren, Yuma Ueda, Atsuhiko Kai, Shunta Teraoka and Taku Fukushima
    • Journal Title

      Proceedings of Asia-Pacific Signal Information Processing Association Annual Summit and Conference (APSIPA ASC)

      Volume: - Pages: 1-5

    • DOI

      10.1109/APSIPA.2014.7041548

    • Peer Reviewed
  • [Journal Article] Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization2014

    • Author(s)
      Yuma Ueda, Longbiao Wang, Atsuhiko Kai, Xiong Xiao, EngSiong Chng and Haizhou Li
    • Journal Title

      Proceedings of the 9th International Symposium on Chinese Spoken Language Processing (ISCSLP 2014)

      Volume: - Pages: 379-383

    • DOI

      10.1109/ISCSLP.2014.6936613

    • Peer Reviewed
  • [Journal Article] Single-sided Approach to Discriminative PLDA Training for Text-Independent Speaker Verification without Using Expanded I-vector2014

    • Author(s)
      Ikuya Hirano, Kong Aik Lee, Zhaofeng Zhang, Longbiao Wang and Atsuhiko Kai
    • Journal Title

      Proceedings of the 9th International Symposium on Chinese Spoken Language Processing (ISCSLP 2014)

      Volume: - Pages: 59-63

    • DOI

      10.1109/ISCSLP.2014.6936581

    • Peer Reviewed
  • [Presentation] Cepstral domain denoising autoencoder およびDNN-HMM による雑音・残響下音声認識2015

    • Author(s)
      上田雄磨,王 龍標,甲斐充彦
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-17
  • [Presentation] Speech selection and environmental adaptation for asynchronous speech recording based on deep neural network2014

    • Author(s)
      Bo Ren, Longbiao Wang and Atsuhiko Kai
    • Organizer
      第16回音声言語シンポジウム(電子情報通信学会)
    • Place of Presentation
      東京工業大学すずかけ台キャンパス(神奈川県横浜市)
    • Year and Date
      2014-12-16
  • [Presentation] DNNに基づく特徴変換による残響環境話者認識2014

    • Author(s)
      張 兆峰, 王 龍標, 甲斐充彦, 李 衛鋒, 岩橋政宏
    • Organizer
      第16回音声言語シンポジウム(電子情報通信学会)
    • Place of Presentation
      東京工業大学すずかけ台キャンパス(神奈川県横浜市)
    • Year and Date
      2014-12-16
  • [Presentation] 会議音声における音声区間検出のためのDeep Neural Networkとクロス適応の検討2014

    • Author(s)
      中谷彰宏, 王 龍標, 甲斐充彦
    • Organizer
      第16回音声言語シンポジウム(電子情報通信学会)
    • Place of Presentation
      東京工業大学すずかけ台キャンパス(神奈川県横浜市)
    • Year and Date
      2014-12-15
  • [Presentation] 非同期音声収録を用いた遠隔発話音声認識2014

    • Author(s)
      寺岡俊汰, 上田雄磨, 王 龍標, 甲斐充彦, 福島 拓
    • Organizer
      音学シンポジウム2014 (電子情報通信学会)
    • Place of Presentation
      日本大学文理学部キャンパス(東京都世田谷区)
    • Year and Date
      2014-05-24

URL: 

Published: 2016-05-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi