低認識精度発声に対する音声認識に関する研究

研究課題

研究課題/領域番号	15700163
研究種目	若手研究(B)
配分区分	補助金
研究分野	知覚情報処理・知能ロボティクス
研究機関	徳島大学
研究代表者	柘植覚徳島大学, 工学部, 講師 (00325250)
研究期間 (年度)	2003 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	2,700千円 (直接経費: 2,700千円) 2005年度: 500千円 (直接経費: 500千円) 2004年度: 900千円 (直接経費: 900千円) 2003年度: 1,300千円 (直接経費: 1,300千円)
キーワード	音声認識 / 低音声認識精度発声 / 相関分析 / 音声認識精度の分析 / 長短期間の音声変動 / 分散型音声認識 / 分散型話者認識 / Earth Mover's Distance / ベクトル量子化 / 周波数特性の変動
研究概要	本研究の研究の目的は以下の2点である. ◆低認識精度発声の原因解明 ◆低認識精度発声の認識精度向上この目的を実現するために、次のことを実施した。原因解明のため、現在定期的に収録を行っている特定話者長期間音声データベースを用い、様々な要因との相関分析を行った。この結果より、特定話者の場合、発話速度は音声認識精度への相関が低いことがわかった。これは、発話速度は置換誤りと相関が低いが、挿入誤りとは高い負の相関を持ち、脱落誤りとは高い正の相関を持つため、挿入誤りと脱落誤りが相殺し、発話速度と音声認識精度の相関が低いことがわかった。また、音声認識精度と母音の各正解率との相関をしらべ、母音/a/、/u/は音声認識精度との相関が高いことがわかった。低認識精度発声の認識精度向上のため、原因解明のために使用したデータと同様のデータを使用して、認識精度向上のため、各発声日、発声時間帯に音響モデルを適応することを試みた。これは、認識率改善のためには、一日内の音声変動が有効化、同じ時間帯の音声が有効化を検討した。この検討の結果、音声認識精度改善のためには同一内に発声された音声を用い、音響モデルを適応することが有効であることがわかった。

報告書

(3件)

研究成果

(18件)

すべて 2006 2005 2004 その他

すべて雑誌論文 (12件) 文献書誌 (6件)

[雑誌論文] Nonparametric Speaker Recognition Method Using Earth Mover's Distance2006
- 著者名/発表者名
  Shingo Kuroiwa
- 雑誌名
  
  IEICE Transactions on Information and Systems Vol.E89-D, No.3
  
  ページ: 1074-1081
- 関連する報告書
  2005 実績報告書
[雑誌論文] Acoustic Model Adaptation for Cedec Speech based on Leaning-by-Doing Concept2006
- 著者名/発表者名
  Shingo Kuroiwa
- 雑誌名
  
  Advances in Natural Language Processing Research in Computing Science Vol.18
  
  ページ: 105-114
- 関連する報告書
  2005 実績報告書
[雑誌論文] Specific, Speaker's Japanese Speech Corpus over Long and Short Time Periods2006
- 著者名/発表者名
  Satoru Tsuge
- 雑誌名
  
  Advances in Natural Language Processing Research in Computing Science Vol.18
  
  ページ: 115-124
- 関連する報告書
  2005 実績報告書
[雑誌論文] Data Collection for Investigating Speech Variability in a Specific Speaker Over Long and Short Time Periods2005
- 著者名/発表者名
  Satoru Tsuge
- 雑誌名
  
  Proc.of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE'05)
  
  ページ: 152-157
- 関連する報告書
  2005 実績報告書
[雑誌論文] A Lost Speech Reconstruction Method Using Linguistic Information2005
- 著者名/発表者名
  Shingo Kuroiwa
- 雑誌名
  
  Proc.of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE'05)
  
  ページ: 126-130
- 関連する報告書
  2005 実績報告書
[雑誌論文] Frequency Characteristic Normalization Method Using Blind Equalization Technique with Multiple References for DSR2005
- 著者名/発表者名
  Satoru Tsuge
- 雑誌名
  
  Proc.of 10th International Conference SPEECH and COMPUTER (SPECOM2005) Vol.1
  
  ページ: 103-106
- 関連する報告書
  2005 実績報告書
[雑誌論文] ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法2005
- 著者名/発表者名
  柘植覚
- 雑誌名
  
  電気学会論文誌C 125・7
  
  ページ: 120-127
- NAID
  10014100435
- 関連する報告書
  2004 実績報告書
[雑誌論文] Non-negative Matrix Factorizationを用いたベクトル空間情報検索モデルの次元削減手法2004
- 著者名/発表者名
  柘植覚
- 雑誌名
  
  電気学会論文誌C 124・7
  
  ページ: 1500-1506
- NAID
  10013268306
- 関連する報告書
  2004 実績報告書
[雑誌論文] Evaluation of frequency characteristic normalization method with multiple reference cepstrum on the Japanese newspaper article sentences speech corpus2004
- 著者名/発表者名
  Satoru Tsuge
- 雑誌名
  
  Proc.of the third International Conference on Information
  
  ページ: 199-202
- 関連する報告書
  2004 実績報告書
[雑誌論文] Speaker Recognition using a Non-parametric Speaker Model Representation and Earth Mover's Distance2004
- 著者名/発表者名
  Umeda Yoshiyuki
- 雑誌名
  
  Proc.of International Workshop on statistical modeling approach for speech recognition, "BEYOND HMM"
- 関連する報告書
  2004 実績報告書
[雑誌論文] Distributed Speaker Recognition using Earth Mover's Distance2004
- 著者名/発表者名
  Umeda Yoshiyuki
- 雑誌名
  
  Proc.of International Conference on Spoken Language Processing Vol.3
  
  ページ: 2389-2493
- 関連する報告書
  2004 実績報告書
[雑誌論文] Acoustic model adaptation for coded speech using synthetic speech2004
- 著者名/発表者名
  Shingo Kuroiwa
- 雑誌名
  
  Proc.of International Conference on Spoken Language Processing Vol.4
  
  ページ: 2925-2928
- 関連する報告書
  2004 実績報告書
[文献書誌] Satoru Tsuge: "Evaluation of ETSI Advanced Front-end and Bias Removal Method on the Japanese Newspaper Article"Proceedings of EUROSPEECH2003. 2145-2148 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Shingo Kuroiwa: "Blind Equalization Techniques for ETSI Standard DSR Front-end"Proceedings of ICASSP2003. 1. 392-395 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Koji Tanaka: "An acoustic model adaptation using HMM-based speech synthesis"Proceedings of Natural Language Processing and Knowledge Engineering. 1. 368-373 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Shingo Kuroiwa: "Blind equalization via minimization of VQ distortion for ETSI standard DSR front-end"Proceedings of Natural Language Processing and Knowledge Engineering. 1. 585-590 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 柘植覚: "周波数特性の変動に頑健な実時間分散音声認識手法"情報処理学会研究報告. 42. 13-18 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 柘植覚: "分散型音声認識のための実時間周波数特性正規化手法"日本音響学会秋季講演発表会. 111-112 (2003)
- 関連する報告書
  2003 実績報告書

低認識精度発声に対する音声認識に関する研究

研究代表者

柘植 覚 徳島大学, 工学部, 講師 (00325250)

2,700千円 (直接経費: 2,700千円)

報告書

研究成果

[雑誌論文] Nonparametric Speaker Recognition Method Using Earth Mover's Distance2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Acoustic Model Adaptation for Cedec Speech based on Leaning-by-Doing Concept2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Specific, Speaker's Japanese Speech Corpus over Long and Short Time Periods2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Data Collection for Investigating Speech Variability in a Specific Speaker Over Long and Short Time Periods2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A Lost Speech Reconstruction Method Using Linguistic Information2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Frequency Characteristic Normalization Method Using Blind Equalization Technique with Multiple References for DSR2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Non-negative Matrix Factorizationを用いたベクトル空間情報検索モデルの次元削減手法2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Evaluation of frequency characteristic normalization method with multiple reference cepstrum on the Japanese newspaper article sentences speech corpus2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Speaker Recognition using a Non-parametric Speaker Model Representation and Earth Mover's Distance2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Distributed Speaker Recognition using Earth Mover's Distance2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Acoustic model adaptation for coded speech using synthetic speech2004

著者名/発表者名

雑誌名

関連する報告書

[文献書誌] Satoru Tsuge: "Evaluation of ETSI Advanced Front-end and Bias Removal Method on the Japanese Newspaper Article"Proceedings of EUROSPEECH2003. 2145-2148 (2003)

関連する報告書

[文献書誌] Shingo Kuroiwa: "Blind Equalization Techniques for ETSI Standard DSR Front-end"Proceedings of ICASSP2003. 1. 392-395 (2003)

関連する報告書

[文献書誌] Koji Tanaka: "An acoustic model adaptation using HMM-based speech synthesis"Proceedings of Natural Language Processing and Knowledge Engineering. 1. 368-373 (2003)

関連する報告書

[文献書誌] Shingo Kuroiwa: "Blind equalization via minimization of VQ distortion for ETSI standard DSR front-end"Proceedings of Natural Language Processing and Knowledge Engineering. 1. 585-590 (2003)

関連する報告書

[文献書誌] 柘植 覚: "周波数特性の変動に頑健な実時間分散音声認識手法"情報処理学会 研究報告. 42. 13-18 (2003)

関連する報告書

[文献書誌] 柘植 覚: "分散型音声認識のための実時間周波数特性正規化手法"日本音響学会 秋季講演発表会. 111-112 (2003)

関連する報告書

柘植覚徳島大学, 工学部, 講師 (00325250)

[文献書誌] 柘植覚: "周波数特性の変動に頑健な実時間分散音声認識手法"情報処理学会研究報告. 42. 13-18 (2003)

[文献書誌] 柘植覚: "分散型音声認識のための実時間周波数特性正規化手法"日本音響学会秋季講演発表会. 111-112 (2003)