2014 年度実施状況報告書

音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

研究課題

研究課題/領域番号	25330128
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学研究科, 准教授 (60283496)
研究分担者	王龍標長岡技術科学大学, その他部局等, 准教授 (30510458)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声ドキュメント検索 / 音声検索語検出 / 音声区間検出 / 雑音残響環境 / 残響除去 / DNN / 認識精度推定
研究実績の概要	多様な環境で収録される音声データのまとまり（音声ドキュメント）に対して、クエリとしての言葉が発話された区間を検出するために用いるインデキシングを改善していくシステムを構築するため、関連する要素技術の改良を進めた。当年度の研究実施計画のとおり、実環境で収録された雑音や残響の影響を含むデータを実験用データに加えて以下のようなサブテーマに取り組んだ。まず、前年度までの成果として開発したDeep Neural Networkを用いた音声区間検出手法を、実際に会議室環境で収録された遠隔収録の音声データに対して適用した。そして、教師なしでの環境適応を実現するためクロス適応の考え方を導入した改善手法を提案し、複数の会議室環境の実データを用いた評価実験によって提案手法の有効性を示した。また、前年度に引き続き、複数の話者が混在する音声データから話者別に分類する話者ダイアライゼーションの改良を進めた。具体的には、複数の会議室で実際に収録された接話マイクロフォンと遠隔マイクロフォンの音声データのパラレルデータを用いて、denoising autoencoderの特徴正規化手法を応用して収録環境の違いによる特徴変動を削減するDNNを学習し、遠隔収録音声の話者ダイアライゼーションの前処理として用いることで精度を改善することを示した。更に、インデックス信頼度の評価手法の開発に関連して、音声認識結果から推定できる信頼度や発話速度などの発話固有の特徴を抽出して、話者固有の認識精度を推定するモデルの開発を進めた。約130名の話者の単語音声データを用いた評価実験によって、話者単位で約50％近い変動を持つ認識精度の違いを小さい誤差で推定できることを示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の予定のようにこれまで開発してきた内容について実環境収録音声データを用いて環境適応化を含めた評価や信頼度推定などの要素技術の開発を進めることができた。
今後の研究の推進方策	これまでに開発してきた要素技術をもとに、最終年度までに予定しているコンテンツ作成支援につながるインデックス信頼度推定やインタフェースを含むシステム開発を進める。

研究成果
(11件)

すべて 2015 2014

すべて雑誌論文 (6件) (うち査読あり 5件、オープンアクセス 2件) 学会発表 (5件)

[雑誌論文] Distant-talking speaker identification by generalized spectral subtraction-based dereverberation and its efficient computation2014
- 著者名/発表者名
  Zhaofeng Zhang, Longbiao Wang and Atsuhiko Kai
- 雑誌名
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  巻: 2014:15 ページ: 1-12
- DOI
  10.1186/1687-4722-2014-15
- 査読あり / オープンアクセス
[雑誌論文] Combining Subword and State-level Dissimilarity Measures for Improved Spoken Term Detection in NTCIR-11 SpokenQuery&Doc Task2014
- 著者名/発表者名
  Mitsuaki Makino and Atsuhiko Kai
- 雑誌名
  
  Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies
  
  巻: - ページ: 413-418
- オープンアクセス
[雑誌論文] Utilizing State-level Distance Vector Representation for Improved Spoken Term Detection by Text and Spoken Queries2014
- 著者名/発表者名
  Mitsuaki Makino, Naoki Yamamoto, Atsuhiko Kai
- 雑誌名
  
  Proceedings of the 15th Annual Conference of the International Speech Communication Association (INTERSPEECH 2014)
  
  巻: - ページ: 1732-1736
- 査読あり
[雑誌論文] Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording2014
- 著者名/発表者名
  Longbiao Wang, Bo Ren, Yuma Ueda, Atsuhiko Kai, Shunta Teraoka and Taku Fukushima
- 雑誌名
  
  Proceedings of Asia-Pacific Signal Information Processing Association Annual Summit and Conference (APSIPA ASC)
  
  巻: - ページ: 1-5
- DOI
  10.1109/APSIPA.2014.7041548
- 査読あり
[雑誌論文] Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization2014
- 著者名/発表者名
  Yuma Ueda, Longbiao Wang, Atsuhiko Kai, Xiong Xiao, EngSiong Chng and Haizhou Li
- 雑誌名
  
  Proceedings of the 9th International Symposium on Chinese Spoken Language Processing (ISCSLP 2014)
  
  巻: - ページ: 379-383
- DOI
  10.1109/ISCSLP.2014.6936613
- 査読あり
[雑誌論文] Single-sided Approach to Discriminative PLDA Training for Text-Independent Speaker Verification without Using Expanded I-vector2014
- 著者名/発表者名
  Ikuya Hirano, Kong Aik Lee, Zhaofeng Zhang, Longbiao Wang and Atsuhiko Kai
- 雑誌名
  
  Proceedings of the 9th International Symposium on Chinese Spoken Language Processing (ISCSLP 2014)
  
  巻: - ページ: 59-63
- DOI
  10.1109/ISCSLP.2014.6936581
- 査読あり
[学会発表] Cepstral domain denoising autoencoder およびDNN-HMM による雑音･残響下音声認識2015
- 著者名/発表者名
  上田雄磨，王龍標，甲斐充彦
- 学会等名
  日本音響学会2015年春季研究発表会
- 発表場所
  中央大学後楽園キャンパス（東京都文京区）
- 年月日
  2015-03-17
[学会発表] Speech selection and environmental adaptation for asynchronous speech recording based on deep neural network2014
- 著者名/発表者名
  Bo Ren, Longbiao Wang and Atsuhiko Kai
- 学会等名
  第16回音声言語シンポジウム（電子情報通信学会）
- 発表場所
  東京工業大学すずかけ台キャンパス（神奈川県横浜市）
- 年月日
  2014-12-16
[学会発表] DNNに基づく特徴変換による残響環境話者認識2014
- 著者名/発表者名
  張　兆峰, 王　龍標, 甲斐充彦, 李　衛鋒, 岩橋政宏
- 学会等名
  第16回音声言語シンポジウム（電子情報通信学会）
- 発表場所
  東京工業大学すずかけ台キャンパス（神奈川県横浜市）
- 年月日
  2014-12-16
[学会発表] 会議音声における音声区間検出のためのDeep Neural Networkとクロス適応の検討2014
- 著者名/発表者名
  中谷彰宏, 王　龍標, 甲斐充彦
- 学会等名
  第16回音声言語シンポジウム（電子情報通信学会）
- 発表場所
  東京工業大学すずかけ台キャンパス（神奈川県横浜市）
- 年月日
  2014-12-15
[学会発表] 非同期音声収録を用いた遠隔発話音声認識2014
- 著者名/発表者名
  寺岡俊汰, 上田雄磨, 王　龍標, 甲斐充彦, 福島　拓
- 学会等名
  音学シンポジウム2014 （電子情報通信学会）
- 発表場所
  日本大学文理学部キャンパス（東京都世田谷区）
- 年月日
  2014-05-24

2014 年度 実施状況報告書

音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現

研究代表者

甲斐 充彦 静岡大学, 工学研究科, 准教授 (60283496)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Distant-talking speaker identification by generalized spectral subtraction-based dereverberation and its efficient computation2014

著者名/発表者名

雑誌名

DOI

[雑誌論文] Combining Subword and State-level Dissimilarity Measures for Improved Spoken Term Detection in NTCIR-11 SpokenQuery&Doc Task2014

著者名/発表者名

雑誌名

[雑誌論文] Utilizing State-level Distance Vector Representation for Improved Spoken Term Detection by Text and Spoken Queries2014

著者名/発表者名

雑誌名

[雑誌論文] Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording2014

著者名/発表者名

雑誌名

DOI

[雑誌論文] Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization2014

著者名/発表者名

雑誌名

DOI

[雑誌論文] Single-sided Approach to Discriminative PLDA Training for Text-Independent Speaker Verification without Using Expanded I-vector2014

著者名/発表者名

雑誌名

DOI

[学会発表] Cepstral domain denoising autoencoder およびDNN-HMM による雑音･残響下音声認識2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Speech selection and environmental adaptation for asynchronous speech recording based on deep neural network2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] DNNに基づく特徴変換による残響環境話者認識2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 会議音声における音声区間検出のためのDeep Neural Networkとクロス適応の検討2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 非同期音声収録を用いた遠隔発話音声認識2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実施状況報告書

甲斐充彦静岡大学, 工学研究科, 准教授 (60283496)