話し言葉音声認識の高性能化

研究課題

研究課題/領域番号	15500098
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知覚情報処理・知能ロボティクス
研究機関	山形大学
研究代表者	好田正紀山形大学, 工学部, 教授 (00205337)
研究分担者	小坂哲夫山形大学, 工学部, 助教授 (50359569) 加藤正治山形大学, 工学部, 助手 (10250953)
研究期間 (年度)	2003 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	3,200千円 (直接経費: 3,200千円) 2005年度: 800千円 (直接経費: 800千円) 2004年度: 1,000千円 (直接経費: 1,000千円) 2003年度: 1,400千円 (直接経費: 1,400千円)
キーワード	日本語話し言葉コーパス / 話し言葉音声認識 / ロバスト音声認識 / 音響モデル / 言語モデル / 教師なし適応 / 混合連続分布HMM / 離散混合分布HMM / 音声認識 / 発音変形依存モデル / MLLR / 品詞N-gram
研究概要	話し言葉音声認識の高性能化を目指して以下の研究成果を得た。 1 発音変形依存モデルと教師なし適応による講演音声認識話し言葉の音声認識で問題となる各種変動要因のうち、不明瞭な発音等を中心とした発音変形の問題について検討する。一般に発音変形への対処として、一つの表記に対し想定される読みを複数登録する方法がとられる。しかし単純に読みを増加させるとマッチングの対象が増加し、逆に認識時に悪影響を及ぼす。そこで発音変形の言語的な偏りを利用するため、音声に忠実な読みを持つ形態素解析データに基づく言語モデルを提案する。以上を実現するため、「日本語話し言葉コーパス」(CSJ)の書き起こしテキストを利用して、約686万語からなる発音変形のエントリを含む形態素解析データを作成し、それに基づき言語モデルを学習する。CSJ評価セット1(学会講演、男性10名)の認識実験の結果、発音変形に対処しない場合には単語誤り率(WER)24.70%であったが、提案した言語モデルを用いるとWERが19.96%に減少し、話し言葉の認識においては発音変形への対処が重要であることを確認した。また、音響モデルと言語モデルの繰り返し教師なし適応法を導入することにより、更なる性能向上を目指した結果、WERが15.41%に減少した。 2 離散混合分布型HMMによる講演音声認識これまで離散混合分布型HMM(Discrete-Mixture HMM : DMHMM)を用い、雑音下音声認識の検討を行ってきた。その結果、一般的な環境雑音や突発性雑音下において、従来の混合連続分布HMMと比較して高い性能が得られることがわかった。しかし、雑音のないクリーンな環境での性能については明らかではない。そこで本研究では、クリーンな環境での音声データを用い、DMHMMの性能評価を行うことを目的とする。評価にあたっては、他機関との比較ができる共通コーパスを用いるのが望ましいこと、および、なるべく困難なタスクでの性能を明らかにしたいため、「日本語話し言葉コーパス」(CSJ)を用いることとした。音響モデルとして3000状態16混合のDMHMMを、言語モデルとしてCSJの2668講演、686万語から学習した発音変形に依存したモデルを使用した。CSJ評価セット1(学会講演、男性10名)の認識実験の結果WER20.30%を得て、混合連続分布HMMでの結果と比較して遜色ない性能であることを確認した。

報告書

(4件)

研究成果
(44件)

すべて 2006 2005 2004 その他

すべて雑誌論文 (32件) 文献書誌 (12件)

[雑誌論文] 発音変形依存モデルを用いた講演音声認識2006
- 著者名/発表者名
  堤怜介
- 雑誌名
  
  電子情報通信学会論文誌 J89-D,2
  
  ページ: 305-313
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2005 実績報告書 2005 研究成果報告書概要
[雑誌論文] Lecture speech recognition using pronunciation variant modeling2006
- 著者名/発表者名
  R.Tsutsumi, M.Katoh, T.Kosaka, M.Kohda
- 雑誌名
  
  IEICE Transactions on Information and Systems Vol.J89-D, No.2
  
  ページ: 305-313
- NAID
  110004669949
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] 巻き起こしと講演録を用いた言語モデルの作成法の検討2006
- 著者名/発表者名
  加藤正治
- 雑誌名
  
  日本音響学会講演論文集(春季) 3-1-7
  
  ページ: 1203-1204
- 関連する報告書
  2005 実績報告書
[雑誌論文] 日本語話し言葉コーパスを用いた教師なし適応による講演音声認識の性能改善2006
- 著者名/発表者名
  阿部拓也
- 雑誌名
  
  日本音響学会講演論文集(春季) 3-1-8
  
  ページ: 1205-1206
- 関連する報告書
  2005 実績報告書
[雑誌論文] 離散混合分布HMMのコードブック正規化による雑音下音声認識2006
- 著者名/発表者名
  遠藤大悟
- 雑誌名
  
  日本音響学会講演論文集(春季) 3-1-16
  
  ページ: 139-140
- 関連する報告書
  2005 実績報告書
[雑誌論文] ヒストグラム同等化を用いた離散混合分布HMMのコードブック適応2006
- 著者名/発表者名
  熊倉拓哉
- 雑誌名
  
  情報処理学会東北支部研究会 05-5-A1-1
  
  ページ: 1-7
- 関連する報告書
  2005 実績報告書
[雑誌論文] 話者ベクトルを用いた雑音下話者認識手法の検討2006
- 著者名/発表者名
  赤津達也
- 雑誌名
  
  情報処理学会東北支部研究会 05-5-A1-2
  
  ページ: 1-7
- 関連する報告書
  2005 実績報告書
[雑誌論文] 教師なし適応による講演音声認識の性能改善2006
- 著者名/発表者名
  草間隆
- 雑誌名
  
  情報処理学会東北支部研究会 05-5-A1-3
  
  ページ: 1-8
- 関連する報告書
  2005 実績報告書
[雑誌論文] 書き起こしと講演録を用いた言語モデルの作成法の検討2006
- 著者名/発表者名
  梅本真模
- 雑誌名
  
  情報処理学会東北支部研究会 05-5-A1-4
  
  ページ: 1-8
- 関連する報告書
  2005 実績報告書
[雑誌論文] 日本語話し言葉コーパスを用いた音声要約の検討2006
- 著者名/発表者名
  宇野涼子
- 雑誌名
  
  情報処理学会東北支部研究会 05-5-A1-5
  
  ページ: 1-8
- 関連する報告書
  2005 実績報告書
[雑誌論文] Robust speech recognition under non-stationary noise using discrete-mixture HMMs2005
- 著者名/発表者名
  T.Kosaka
- 雑誌名
  
  Proc. of International Workshop on Nonlinear Circuit and Signal Processing 1
  
  ページ: 347-350
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Fast optimization of language model weight and insertion penalty from n-best candidates2005
- 著者名/発表者名
  A.Ito
- 雑誌名
  
  Acoustical Science and Technology 26,4
  
  ページ: 384-387
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Robust Speech Recognition Using Discrete-Mixture HMMs2005
- 著者名/発表者名
  T.Kosaka
- 雑誌名
  
  IEICE Transaction on Information and Systems (電子情報通信学会英文論文誌) E88-D,12
  
  ページ: 2811-2818
- NAID
  110004019504
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Robust speech recognition under non-stationary noise using discrete-mixture HMMs2005
- 著者名/発表者名
  T.Kosaka, M.Katoh, M.Kohda
- 雑誌名
  
  Proc.of International Workshop on Nonlinear Circuit and Signal Processing
  
  ページ: 347-350
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Fast optimization of language model weight and insertion penalty from n-best candidates2005
- 著者名/発表者名
  A.Ito, M.Kohda, S.Makino
- 雑誌名
  
  Acoustical Science and Technology Vol.26, No.4
  
  ページ: 384-387
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Robust speech recognition using discrete-mixture HMMs2005
- 著者名/発表者名
  T.Kosaka, M.Katoh, M.Kohda
- 雑誌名
  
  IEICE Transactions on Information and Systems Vol.E88-D, No.12
  
  ページ: 2811-2818
- NAID
  110004019504
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] 離散混合分布型HMMによる講演音声認識の検討2005
- 著者名/発表者名
  小坂哲夫
- 雑誌名
  
  電子情報通信学会技術研究報告 SP2005-25
  
  ページ: 31-36
- 関連する報告書
  2005 実績報告書
[雑誌論文] 日本語話し言葉コーパスを用いた発音変形依存モデルによる講演音声認識の性能評価2005
- 著者名/発表者名
  阿部拓也
- 雑誌名
  
  日本音響学会講演論文集(秋季) 2-1-1
  
  ページ: 44-44
- 関連する報告書
  2005 実績報告書
[雑誌論文] 日本語話し言葉コーパスによる離散混合分布型HMMの評価2005
- 著者名/発表者名
  小坂哲夫
- 雑誌名
  
  日本音響学会講演論文集(秋季) 2-7-19
  
  ページ: 64-64
- 関連する報告書
  2005 実績報告書
[雑誌論文] 日本語話し言葉コーパスを用いた発音変形依存モデルによる講演音声認識の性能評価2005
- 著者名/発表者名
  阿部拓也
- 雑誌名
  
  電子情報通信学会技術研究報告 SP2005-94
  
  ページ: 25-30
- 関連する報告書
  2005 実績報告書
[雑誌論文] Rebust Speech Recognition Using Discrete-Mixture HMMs2005
- 著者名/発表者名
  小坂哲夫
- 雑誌名
  
  IEICE Trans. on Information and Systems(電子情報通信学会英文論文誌) E88-D,12
  
  ページ: 2811-2818
- 関連する報告書
  2005 実績報告書
[雑誌論文] 日本語話し言葉コーパスの形態素解析2005
- 著者名/発表者名
  加藤正治
- 雑誌名
  
  情報処理学会東北支部研究会 04-6-A1-3
  
  ページ: 1-8
- 関連する報告書
  2004 実績報告書
[雑誌論文] 日本語話し言葉コーパスを用いた講演音声認識の性能評価2005
- 著者名/発表者名
  阿部拓也
- 雑誌名
  
  情報処理学会東北支部研究会 04-6-A1-4
  
  ページ: 1-8
- 関連する報告書
  2004 実績報告書
[雑誌論文] 分散音声認識システムにおける話者ベクトルを用いた話者識別の検討2005
- 著者名/発表者名
  松本和樹
- 雑誌名
  
  情報処理学会東北支部研究会 04-6-A2-1
  
  ページ: 1-8
- 関連する報告書
  2004 実績報告書
[雑誌論文] 離散混合出力分布型HMMによる雑音下音声認識のMFCCでの評価2005
- 著者名/発表者名
  小坂哲夫
- 雑誌名
  
  日本音響学会講演論文集(春季) 3-5-11
  
  ページ: 97-98
- NAID
  10018037199
- 関連する報告書
  2004 実績報告書
[雑誌論文] Robust speech recognition under non-stationary noise using discrete-mixture HMMs2005
- 著者名/発表者名
  小坂哲夫
- 雑誌名
  
  2005 RISP International Workshop on Nonlinear Circuits and Signal Processing
  
  ページ: 347-350
- 関連する報告書
  2004 実績報告書
[雑誌論文] Noisy speech recognition with discrete-mixture HMMs based on MAP estimation2004
- 著者名/発表者名
  T.Kosaka
- 雑誌名
  
  Proc. of The 18th International Congress on Acoustics 2
  
  ページ: 1691-1694
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Language modeling by an ergodic HMM based on an N-gram2004
- 著者名/発表者名
  A.Ito
- 雑誌名
  
  Proc. of The 18th International Congress on Acoustics 5
  
  ページ: 3701-3704
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Noisy speech recognition with discrete-mixture HMMs based on MAP estimation2004
- 著者名/発表者名
  T.Kosaka, M.Katoh, M.Kohda
- 雑誌名
  
  Proc.of The 18th International Congress on Acoustics Vol.II
  
  ページ: 1691-1694
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] Language modeling by an ergodic HMM based on an N-gram2004
- 著者名/発表者名
  T.Nagano, M.Suzuki, A.Ito, S.Makino, M.Katoh, M.Kohda
- 雑誌名
  
  Proc.of The 18th International Congress on Acoustics Vol.V
  
  ページ: 3701-3704
- NAID
  110003297644
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2005 研究成果報告書概要
[雑誌論文] ETSI標準フロントエンドを用いた雑音下音声認識の検討2004
- 著者名/発表者名
  福士なな子
- 雑誌名
  
  電子情報通信学会技術研究報告 104,86(SP2004-11)
  
  ページ: 7-12
- 関連する報告書
  2004 実績報告書
[雑誌論文] 参議院会議の音声認識2004
- 著者名/発表者名
  加藤正治
- 雑誌名
  
  日本音響学会講演論文集(秋季) 2-1-2
  
  ページ: 39-40
- 関連する報告書
  2004 実績報告書
[文献書誌] 堤怜介: "講演音声認識における音響・言語モデルの話者適応の検討"電子情報通信学会技術研究報告. 103, 94(SP2003-27). 7-12 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 小坂哲夫: "MAP推定を用いた離散混合出力分布型HMMの雑音重畳音声での評価"電子情報通信学会技術研究報告. 103, 93(SP2003-21). 7-12 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 小坂哲夫: "MAP推定による離散混合出力分布型HMMを用いた非定常雑音下における音声認識の検討"日本音響学会講演論文集(秋季). 1-6-14. 27-28 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 福士なな子: "ETSI標準フロントエンドを用いたマルチコンディション学習による雑音重畳音声認識の検討"日本音響学会講演論文集(秋季). 1-6-8. 15-16 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 金野弘明: "かな・漢字文字列を単位とした言語モデルの検討"東北大学電気通信研究所音響工学研究会. 326-4. 1-6 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 小坂哲夫: "離散混合出力分布型HMMを用いた非定常雑音下の音声認識"電子情報通信学会技術研究報告. 103, 519(SP2003-132). 115-120 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 堤怜介: "発音変形依存と教師なし適応による講演音声認識の性能改善"話し言葉の科学と工学ワークショップ. 3. 93-98 (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 福士なな子: "ETSI標準フロントエンドを用いた雑音重畳音声認識の検討"情報処理学会東北支部研究会. 03-5-B2-1. 1-8 (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 松本和樹: "分散音声認識のクライアントにおけるマイク特性変動の除去"情報処理学会東北支部研究会. 03-5-B2-2. 1-8 (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 堤怜介: "発音変形依存と教師なし適応による講演音声認識の性能改善"日本音響学会講演論文集(春季). 2-11-3. 105-106 (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 金野弘明: "相互情報量と出現頻度を併用した文字列N-gram"日本音響学会講演論文集(春季). 2-8-4. 67-68 (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 小坂哲夫: "Noisy speech recognition with discrete-mixture HMMs based on MAP estimation"18th International Congress on Acoustics. Tu. P2.8. (2004)
- 関連する報告書
  2003 実績報告書

話し言葉音声認識の高性能化

研究代表者

好田 正紀 山形大学, 工学部, 教授 (00205337)

3,200千円 (直接経費: 3,200千円)

報告書

研究成果

[雑誌論文] 発音変形依存モデルを用いた講演音声認識2006

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Lecture speech recognition using pronunciation variant modeling2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] 巻き起こしと講演録を用いた言語モデルの作成法の検討2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 日本語話し言葉コーパスを用いた教師なし適応による講演音声認識の性能改善2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 離散混合分布HMMのコードブック正規化による雑音下音声認識2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ヒストグラム同等化を用いた離散混合分布HMMのコードブック適応2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 話者ベクトルを用いた雑音下話者認識手法の検討2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 教師なし適応による講演音声認識の性能改善2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 書き起こしと講演録を用いた言語モデルの作成法の検討2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 日本語話し言葉コーパスを用いた音声要約の検討2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Robust speech recognition under non-stationary noise using discrete-mixture HMMs2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Fast optimization of language model weight and insertion penalty from n-best candidates2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Robust Speech Recognition Using Discrete-Mixture HMMs2005

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Robust speech recognition under non-stationary noise using discrete-mixture HMMs2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Fast optimization of language model weight and insertion penalty from n-best candidates2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Robust speech recognition using discrete-mixture HMMs2005

著者名/発表者名

雑誌名

NAID

説明

好田正紀山形大学, 工学部, 教授 (00205337)