音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

研究課題

研究課題/領域番号	25330128
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	マルチメディア・データベース
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
研究分担者	王龍標長岡技術科学大学, 技学研究院, 准教授 (30510458)
連携研究者	小暮悟静岡大学, 情報学部, 講師 (40359758)
研究期間 (年度)	2013-04-01 – 2016-03-31
研究課題ステータス	完了 (2015年度)
配分額 *注記	4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円) 2015年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2014年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2013年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	音声ドキュメント検索 / 音声検索語検出 / STD / 音声クエリ / DNN / 音声認識信頼度 / スコア正規化 / 音声区間検出 / 雑音残響環境 / 残響除去 / 認識精度推定 / VAD / 話者認識 / 信頼度
研究成果の概要	音声ドキュメント検索システムの開発を目的として、インデキシングや検索精度の改善に関わる要素技術の開発を進めた。音声コンテンツに含まれる多様な収録環境や話者の違いを考慮するために、近年のパターン認識分野で高い精度を示している深層ニューラルネットワークモデル（DNN）を用いて音声区間検出モデルや残響除去モデルを構築し、話者区間分類や音声認識の前処理として用いる方法を提案し、性能を改善した。また、音声ドキュメント検索の性能に大きく影響を与える自動音声認識システムの未知語に起因する検出漏れを軽減するため、DNNによる音声特徴量変換に基づく再照合手法を提案し、検索性能を改善した。

報告書

(4件)

研究成果
(20件)

すべて 2016 2015 2014 2013 その他

すべて雑誌論文 (10件) (うち査読あり 9件、オープンアクセス 3件、謝辞記載あり 1件) 学会発表 (10件) (うち国際学会 1件)

[雑誌論文] Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition2015
- 著者名/発表者名
  Ren, Bo and Wang, Longbiao and Lu, Liang and Ueda, Yuma and Kai, Atsuhiko
- 雑誌名
  
  MULTIMEDIA TOOLS AND APPLICATIONS
  
  巻: 75 ページ: 1-16
- 関連する報告書
  2015 実績報告書
- 査読あり
[雑誌論文] Environment-dependent denoising autoencoder for distant-talking speech recognition2015
- 著者名/発表者名
  Y. Ueda, L. Wang, A. Kai, B. Ren
- 雑誌名
  
  Eurasip Journal on Advances in Signal Processing
  
  巻: 2015:92 号: 1 ページ: 1-11
- DOI
  10.1186/s13634-015-0278-y
- 関連する報告書
  2015 実績報告書
- 査読あり / オープンアクセス / 謝辞記載あり
[雑誌論文] Distant-talking speaker identification by generalized spectral subtraction-based dereverberation and its efficient computation2014
- 著者名/発表者名
  Zhaofeng Zhang, Longbiao Wang and Atsuhiko Kai
- 雑誌名
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  巻: 2014:15 号: 1 ページ: 1-12
- DOI
  10.1186/1687-4722-2014-15
- 関連する報告書
  2014 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Combining Subword and State-level Dissimilarity Measures for Improved Spoken Term Detection in NTCIR-11 SpokenQuery&Doc Task2014
- 著者名/発表者名
  Mitsuaki Makino and Atsuhiko Kai
- 雑誌名
  
  Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies
  
  巻: - ページ: 413-418
- 関連する報告書
  2014 実施状況報告書
- オープンアクセス
[雑誌論文] Utilizing State-level Distance Vector Representation for Improved Spoken Term Detection by Text and Spoken Queries2014
- 著者名/発表者名
  Mitsuaki Makino, Naoki Yamamoto, Atsuhiko Kai
- 雑誌名
  
  Proceedings of the 15th Annual Conference of the International Speech Communication Association (INTERSPEECH 2014)
  
  巻: - ページ: 1732-1736
- 関連する報告書
  2014 実施状況報告書
- 査読あり
[雑誌論文] Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording2014
- 著者名/発表者名
  Longbiao Wang, Bo Ren, Yuma Ueda, Atsuhiko Kai, Shunta Teraoka and Taku Fukushima
- 雑誌名
  
  Proceedings of Asia-Pacific Signal Information Processing Association Annual Summit and Conference (APSIPA ASC)
  
  巻: - ページ: 1-5
- DOI
  10.1109/apsipa.2014.7041548
- 関連する報告書
  2014 実施状況報告書
- 査読あり
[雑誌論文] Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization2014
- 著者名/発表者名
  Yuma Ueda, Longbiao Wang, Atsuhiko Kai, Xiong Xiao, EngSiong Chng and Haizhou Li
- 雑誌名
  
  Proceedings of the 9th International Symposium on Chinese Spoken Language Processing (ISCSLP 2014)
  
  巻: - ページ: 379-383
- DOI
  10.1109/iscslp.2014.6936613
- 関連する報告書
  2014 実施状況報告書
- 査読あり
[雑誌論文] Single-sided Approach to Discriminative PLDA Training for Text-Independent Speaker Verification without Using Expanded I-vector2014
- 著者名/発表者名
  Ikuya Hirano, Kong Aik Lee, Zhaofeng Zhang, Longbiao Wang and Atsuhiko Kai
- 雑誌名
  
  Proceedings of the 9th International Symposium on Chinese Spoken Language Processing (ISCSLP 2014)
  
  巻: - ページ: 59-63
- DOI
  10.1109/iscslp.2014.6936581
- 関連する報告書
  2014 実施状況報告書
- 査読あり
[雑誌論文] Using Acoustic Dissimilarity Measures Based on State-Level Distance Vector Representation for Improved Spoken Term Detection2013
- 著者名/発表者名
  Naoki Yamamoto, Atsuhiko Kai
- 雑誌名
  
  Proc. of APSIPA Annual Summit and Conference 2013
  
  巻: - ページ: 1-4
- DOI
  10.1109/apsipa.2013.6694151
- 関連する報告書
  2013 実施状況報告書
- 査読あり
[雑誌論文] Improvement of distant-talking speaker identification using bottleneck features of DNN2013
- 著者名/発表者名
  Takanori Yamada, Longbiao Wang, Atsuhiko Kai
- 雑誌名
  
  Proc. of INTERSPEECH 2013
  
  巻: - ページ: 3661-3664
- 関連する報告書
  2013 実施状況報告書
- 査読あり
[学会発表] Combining State-level and DNN-based Acoustic Matches for Efficient Spoken Term Detection in NTCIR-12 SpokenQuery&Doc-2 Task2016
- 著者名/発表者名
  Shuji Oishi, Tatsuya Matsuba, Mitsuaki Makino, Atsuhiko Kai
- 学会等名
  NTCIR 12 Conference
- 発表場所
  学術総合センター（東京）
- 年月日
  2016-06-08
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] Cepstral domain denoising autoencoder およびDNN-HMM による雑音･残響下音声認識2015
- 著者名/発表者名
  上田雄磨，王龍標，甲斐充彦
- 学会等名
  日本音響学会2015年春季研究発表会
- 発表場所
  中央大学後楽園キャンパス（東京都文京区）
- 年月日
  2015-03-17
- 関連する報告書
  2014 実施状況報告書
[学会発表] Speech selection and environmental adaptation for asynchronous speech recording based on deep neural network2014
- 著者名/発表者名
  Bo Ren, Longbiao Wang and Atsuhiko Kai
- 学会等名
  第16回音声言語シンポジウム（電子情報通信学会）
- 発表場所
  東京工業大学すずかけ台キャンパス（神奈川県横浜市）
- 年月日
  2014-12-16
- 関連する報告書
  2014 実施状況報告書
[学会発表] DNNに基づく特徴変換による残響環境話者認識2014
- 著者名/発表者名
  張　兆峰, 王　龍標, 甲斐充彦, 李　衛鋒, 岩橋政宏
- 学会等名
  第16回音声言語シンポジウム（電子情報通信学会）
- 発表場所
  東京工業大学すずかけ台キャンパス（神奈川県横浜市）
- 年月日
  2014-12-16
- 関連する報告書
  2014 実施状況報告書
[学会発表] 会議音声における音声区間検出のためのDeep Neural Networkとクロス適応の検討2014
- 著者名/発表者名
  中谷彰宏, 王　龍標, 甲斐充彦
- 学会等名
  第16回音声言語シンポジウム（電子情報通信学会）
- 発表場所
  東京工業大学すずかけ台キャンパス（神奈川県横浜市）
- 年月日
  2014-12-15
- 関連する報告書
  2014 実施状況報告書
[学会発表] 非同期音声収録を用いた遠隔発話音声認識2014
- 著者名/発表者名
  寺岡俊汰, 上田雄磨, 王　龍標, 甲斐充彦, 福島　拓
- 学会等名
  音学シンポジウム2014 （電子情報通信学会）
- 発表場所
  日本大学文理学部キャンパス（東京都世田谷区）
- 年月日
  2014-05-24
- 関連する報告書
  2014 実施状況報告書
[学会発表] Spoken Term Detection Using Distance-Vector based Dissimilarity Measures and Its Evaluation on the NTCIR-10 SpokenDoc-2 Task
- 著者名/発表者名
  Naoki Yamamoto, Atsuhiko Kai
- 学会等名
  The 10th NTCIR Conference
- 発表場所
  学術総合センター（東京）
- 関連する報告書
  2013 実施状況報告書
[学会発表] 雑音に頑健な音声区間検出のためのDeep Belief Networkの適用
- 著者名/発表者名
  中谷彰宏, 王龍標, 甲斐充彦
- 学会等名
  日本音響学会2013年秋季研究発表会
- 発表場所
  豊橋技術科学大学（愛知）
- 関連する報告書
  2013 実施状況報告書
[学会発表] 分布間距離ベクトルに基づく音響的類似度とサブワード事後確率の併用による音声検索語検出の改善
- 著者名/発表者名
  山本直樹, 甲斐充彦
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  筑波大学文京キャンパス（東京）
- 関連する報告書
  2013 実施状況報告書
[学会発表] 分布間距離ベクトル表現による音響的類似度を利用したテキスト及び音声クエリからの音声検索語検出の改善
- 著者名/発表者名
  牧野光晃, 山本直樹, 甲斐充彦
- 学会等名
  第8回音声ドキュメント処理ワークショップ
- 発表場所
  豊橋市民センター（愛知）
- 関連する報告書
  2013 実施状況報告書

音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

研究代表者

甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)

4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)

報告書

研究成果

[雑誌論文] Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition2015

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Environment-dependent denoising autoencoder for distant-talking speech recognition2015

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Distant-talking speaker identification by generalized spectral subtraction-based dereverberation and its efficient computation2014

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Combining Subword and State-level Dissimilarity Measures for Improved Spoken Term Detection in NTCIR-11 SpokenQuery&Doc Task2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Utilizing State-level Distance Vector Representation for Improved Spoken Term Detection by Text and Spoken Queries2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording2014

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization2014

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Single-sided Approach to Discriminative PLDA Training for Text-Independent Speaker Verification without Using Expanded I-vector2014

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Using Acoustic Dissimilarity Measures Based on State-Level Distance Vector Representation for Improved Spoken Term Detection2013

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Improvement of distant-talking speaker identification using bottleneck features of DNN2013

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Combining State-level and DNN-based Acoustic Matches for Efficient Spoken Term Detection in NTCIR-12 SpokenQuery&Doc-2 Task2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Cepstral domain denoising autoencoder およびDNN-HMM による雑音･残響下音声認識2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Speech selection and environmental adaptation for asynchronous speech recording based on deep neural network2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] DNNに基づく特徴変換による残響環境話者認識2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 会議音声における音声区間検出のためのDeep Neural Networkとクロス適応の検討2014

著者名/発表者名

学会等名

発表場所

甲斐充彦静岡大学, 工学部, 准教授 (60283496)