2012 Fiscal Year Annual Research Report

マルチチャンネル最小二乗平均を用いた複数話者の発話に頑健なハンズフリー音声認識

Research Project

Project/Area Number	22700169
Research Institution	Nagaoka University of Technology
Principal Investigator	王龍標長岡技術科学大学, 産学融合トップランナー養成センター, 産学融合特任准教授 (30510458)
Project Period (FY)	2010-04-01 – 2013-03-31
Keywords	ハンズフリー音声認識 / ブラインド残響除去 / マルチチャンネルLMS / 一般化スペクトルサブトラクション / 音源分離 / 独立成分分析
Research Abstract	複数音源（音楽と音声）が同時に存在する環境下で，本提案のマルチチャンネル最小二乗平均による残響除去手法を拡張し，雑音・残響を同時に正確に補正し，頑健な遠隔発話の音声認識法の研究を行う。具体的には以下の通りである。非定常雑音である音楽を含む残響音声に対して，本提案のマルチチャンネル最小二乗平均を基づく一般化スペクトルサブトラクション（GSS）によるブラインド残響除去法とICA（独立成分分析）に基づくブラインド音源分離を組み合わせる方法を提案しました。本研究では，ICA の代表的なアルゴリズムであるFastICA を改善したEfficient FastICA (EFICA)を用いる。まず，EFICAに基づく音源分離によって音楽と音声を分離する。その分離音声から推定したインパルス応答を用いてGSSに基づく残響除去を適用し，後部残響を除去する。その後，特徴量抽出時のCMNによって初期残響の影響を除くように正規化する。この方法を評価するために，残響環境下において非定常的な雑音である音楽が背景雑音として重畳された音楽重畳音声を用いる。SNR（信号雑音比）を変化させ人工的に作成した音楽重畳音声と実環境で収録した音楽重畳音声に対してこの手法を評価した。人工環境で，全てのSNRで音源分離と残響除去の適用によって大幅な改善が見られた。従来法に比べ，SNR 20 dB，10 dB，0 dB のときのエラー削減率はそれぞれ44.2%，48.9%，24.9%を達成した。実環境で，従来法に比べ41.9%のエラー削減率を達成した。この結果はSNRが同程度である0 dB と10 dB の人工音楽重畳音声のときのエラー削減率に匹敵し，本手法は実環境で収録した音楽重畳音声に対しても有効であることが分かった。
Current Status of Research Progress	Reason 24年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	24年度が最終年度であるため、記入しない。

Research Products
(10 results)

All 2013 2012

All Journal Article (1 results) Presentation (8 results) (of which Invited: 1 results) Book (1 results)

[Journal Article] Speaker identification and verification by combining MFCC and phase information2012
- Author(s)
  S. Nakagawa, L. Wang and S. Ohtsuka
- Journal Title
  
  IEEE Transactions on Audio, Speech and Language Processing
  
  Volume: Vol.20, No.4 Pages: 1085-1095
- DOI
  DOI:10.1109/TASL.2011.2172422
[Presentation] Single-sided Approach to Discriminative PLDA Training for Text-Independent Speaker Verification2013
- Author(s)
  Z. Zhang、L. Lee、L. Wang、A. Kai、B. Ma
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学八王子キャンパス（東京都）
- Year and Date
  20130313-20130315
[Presentation] 話者認識技術の現状と課題2013
- Author(s)
  網野加苗、石原俊一、小川哲司、長内隆、黒岩眞吾、越仲孝文、篠田浩一、柘植覚、、西田昌史、松井知子、王龍標
- Organizer
  音声研究会
- Place of Presentation
  大同大学（愛知県）
- Year and Date
  20130228-20130301
- Invited
[Presentation] 音声ツイートを想定したtwitterクライアントの試作・評価と発話特徴の利用に関する一考察2012
- Author(s)
  進士智也、甲斐充彦、王龍標、小暮悟
- Organizer
  第14回音声言語シンポジウム
- Place of Presentation
  東京工業大学大岡山キャンパス（東京都）
- Year and Date
  20121220-20121221
[Presentation] 音響情報と空間情報の利用によるSpeaker Diarizationの検討2012
- Author(s)
  倉島諒、兼子史聖、王龍標、甲斐充彦
- Organizer
  日本音響学会2012年秋季研究発表会
- Place of Presentation
  信州大学 (長野県)
- Year and Date
  20120919-20120921
[Presentation] 一般化スペクトルサブトラクションによる残響除去法を用いた遠隔発話話者認識2012
- Author(s)
  張兆峰、奥和紀、小谷恭平、王龍標、甲斐充彦
- Organizer
  日本音響学会2012年秋季研究発表会
- Place of Presentation
  信州大学 (長野県)
- Year and Date
  20120919-20120921
[Presentation] MFCC と位相情報を用いたJoint Factor Analysis によるチャネルミスマッチ条件下での話者照合2012
- Author(s)
  平野郁也、王龍標、甲斐充彦、中川聖一
- Organizer
  日本音響学会2012年秋季研究発表会
- Place of Presentation
  信州大学 (長野県)
- Year and Date
  20120919-20120921
[Presentation] 音楽重畳音声を用いた音源分離と残響除去法の評価2012
- Author(s)
  小谷恭平、王龍標、甲斐充彦
- Organizer
  日本音響学会2012年秋季研究発表会
- Place of Presentation
  信州大学 (長野県)
- Year and Date
  20120919-20120921
[Presentation] SS法に基づく雑音残響除去法の実環境下における評価2012
- Author(s)
  小谷恭平、王龍標、甲斐充彦
- Organizer
  電子情報通信学会技術研究報告
- Place of Presentation
  大阪大学中之島センター（大阪府）
- Year and Date
  20120524-20120525
[Book] “Dereverberation Based on Spectral Subtraction by Multi-channel LMS Algorithm for Hands-free Speech Recognition”, Chapter in Modern Speech Recognition Approaches with Case Studies, S. Ramakrishnan (Eds.)2012
- Author(s)
  L. Wang, K. Odani, A. Kai, N. Kitaoka and S. Nakagawa
- Total Pages
  155-174
- Publisher
  IN-TECH

2012 Fiscal Year Annual Research Report

マルチチャンネル最小二乗平均を用いた複数話者の発話に頑健なハンズフリー音声認識

Principal Investigator

王 龍標 長岡技術科学大学, 産学融合トップランナー養成センター, 産学融合特任准教授 (30510458)

Reason

Research Products

[Journal Article] Speaker identification and verification by combining MFCC and phase information2012

Author(s)

Journal Title

DOI

[Presentation] Single-sided Approach to Discriminative PLDA Training for Text-Independent Speaker Verification2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 話者認識技術の現状と課題2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声ツイートを想定したtwitterクライアントの試作・評価と発話特徴の利用に関する一考察2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音響情報と空間情報の利用によるSpeaker Diarizationの検討2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 一般化スペクトルサブトラクションによる残響除去法を用いた遠隔発話話者認識2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] MFCC と位相情報を用いたJoint Factor Analysis によるチャネルミスマッチ条件下での話者照合2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音楽重畳音声を用いた音源分離と残響除去法の評価2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] SS法に基づく雑音残響除去法の実環境下における評価2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Book] “Dereverberation Based on Spectral Subtraction by Multi-channel LMS Algorithm for Hands-free Speech Recognition”, Chapter in Modern Speech Recognition Approaches with Case Studies, S. Ramakrishnan (Eds.)2012

Author(s)

Total Pages

Publisher

王龍標長岡技術科学大学, 産学融合トップランナー養成センター, 産学融合特任准教授 (30510458)