2000 年度研究成果報告書概要

新聞記事読み上げ文を対象とする大語彙連続音声認識システムの研究

研究課題

研究課題/領域番号	10680368
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	山形大学
研究代表者	好田正紀山形大学, 工学部, 教授 (00205337)
研究分担者	加藤正治山形大学, 工学部, 助手 (10250953) 伊藤彰則山形大学, 工学部, 助教授 (70232428)
研究期間 (年度)	1998 – 2000
キーワード	大語彙連続音声認識 / 音響モデル / 言語モデル / デコーダ / 隠れマルコフ網 / N-gram / 話者適応 / タスク適応
研究概要	新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムを構築し、下記の研究成果を得た。 (1)音響モデル隠れマルコフ網(HM-Net)は、音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり、高精度かつ頑健な音声認識を実現する音響モデルとして有効である。本研究では、状態クラスタリングに基づく高速なHM-Netの構造決定法を提案した。また、音響モデルの最尤線形回帰(MLLR)ベース話者適応において、BIC基準に基づく回帰クラスタの自動設定法を提案し、MAP法との併用、SATコンパクトモデルの利用等も検討した。 (2)言語モデル大量の一般的な言語コーパスと、少量の特定タスクのサンプルから、特定タスク向きのN-gramを重み付き混合で作成するタスク適応について検討した。単語誤り率との相関がより良い言語モデルの評価尺度として、評価テキストに出現する単語の言語尤度と、その単語が出現した文脈における最大尤度との差に基づく新しい評価尺度を提案し、パープレキシティより優れていることを確認した。確率文脈自由文法(SCFG)のパラメータ推定に要する処理量を大幅に削減するために、文節単位の係り受け制約をもつSCFGを提案し、このSCFGとTrigramを併用すると、Trigram単独より性能が良いことを確認した。 (3)デコーダ大語彙連続音声認識のための高速な探索手法として、認識の前処理で音素グラフを作成し、認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する手法を提案した。また、単語グラフを中間表現とするマルチパスによる大語彙連続音声認識において、bigramによるリスコアリングに基づく、単語グラフ生成のための言語重み・挿入ペナルティの最適化を検討した。 (4)ソフトウエアツール単語n-gramとクラスn-gramが作成可能なツールキットを作成した。このツールキットは、CMU-Cambridge SLM Toolkitとコマンドレベルで互換性がある。また、n-gram出現回数の混合による言語モデルや、線形結合による言語モデルの組み合わせをサポートしている。

研究成果
(14件)

すべてその他

すべて文献書誌 (14件)

[文献書誌] 堀貴明: "状態クラスタリングによるHM-Netの構造決定法の検討"電子情報通信学会論文誌(D-II). J81-D-II. 2239-2248 (1998)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 堀貴明: "連続/セミ連続分布型HMMによる単語音声認識のViterbi best-firstサーチにおける推定スコタ設定法"電子情報通信学会論文誌(D-II). J81-D-II. 2526-2534 (1998)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 堀貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討"情報処理学会論文誌. 40. 1365-1373 (1999)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 堀智織: "音声認識のための確率文脈自由文法に基づく言語モデルの構築と評価"電子情報通信学会論文誌(D-II). J83-D-II. 2407-2417 (2000)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 伊藤彰則: "N-gram出現回数の混合によるタスク適応の性能解析"電子情報通信学会論文誌(D-II). J83-D-II. 2418-2427 (2000)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 伊藤彰則: "A new metric for stochastic language model evaluation"Euro.Conf.on Speech Commu.and Technology. Vol.4. 1591-1594 (1999)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 伊藤彰則: "Language modeling by stochastic dependency grammar for Japanese speech recognition"International Conf.on Spoken Language Processing. Vol.1. 246-249 (2000)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] T.Hori, M.Katoh, A.Ito, M.Kohda: "A Study on a State Clustering-Based Topology Design Method for HM-Hets"Trans. IEICE (D-II). Vol.J81-D-II.No.10. 2239-2248 (1998)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] T.Hori, M.Katoh, M.Kohda: "A Study on Heuristic Score Estimation in Viterbi Best-First Search for Isolated Word Recognition Using Continuous/Semi-Continuous HMMs"Trans. IEICE (D-II). Vol.J81-D-II, No.11. 2526-2534 (1998)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] T.Hori, N.Oka, M.Katoh, A.Ito, M.Kohda: "A Study on a Phoneme-graph-based Hypothesis Restriction for Large Vocabulary Continuous Speech Recognition"Trans. IPSJ.. Vol.40, No.4. 1365-1373 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] C.Hori, M.Katoh, A.Ito, M.Kohda: "Construction and Evaluation of Language Models Based on Stochastic Context Free Grammar for Speech Recognition"Trans. IEICE (D-II). Vol.J83-D-II, No.11. 2407-2417 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] A.Ito, M.Kohda: "Evaluation of Task Adaptation Using N-Gram Count Mixture"Trans. IEICE (D-II). Vol.J83-D-II, No.11. 2418-2427 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] A.Ito, M.Kohda, M.Ostendorf: "A New Metric for Stochastic Language Model Evaluation"Proc. Euro. Conf. on Speech Commu. and Technology. Vol.4. 1591-1594 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] A.Ito, C.Hori, M.Katoh, M.Kohda: "Language Modeling by Stochastic Dependency Grammar for Japanese Speech Recognition"Proc. International Conf. on Spoken Language Processing. Vol.1. 246-249 (2000)
- 説明
  「研究成果報告書概要(欧文)」より

2000 年度 研究成果報告書概要

新聞記事読み上げ文を対象とする大語彙連続音声認識システムの研究

研究代表者

好田 正紀 山形大学, 工学部, 教授 (00205337)

研究成果

[文献書誌] 堀貴明: "状態クラスタリングによるHM-Netの構造決定法の検討"電子情報通信学会論文誌(D-II). J81-D-II. 2239-2248 (1998)

説明

[文献書誌] 堀貴明: "連続/セミ連続分布型HMMによる単語音声認識のViterbi best-firstサーチにおける推定スコタ設定法"電子情報通信学会論文誌(D-II). J81-D-II. 2526-2534 (1998)

説明

[文献書誌] 堀貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討"情報処理学会論文誌. 40. 1365-1373 (1999)

説明

[文献書誌] 堀智織: "音声認識のための確率文脈自由文法に基づく言語モデルの構築と評価"電子情報通信学会論文誌(D-II). J83-D-II. 2407-2417 (2000)

説明

[文献書誌] 伊藤彰則: "N-gram出現回数の混合によるタスク適応の性能解析"電子情報通信学会論文誌(D-II). J83-D-II. 2418-2427 (2000)

説明

[文献書誌] 伊藤彰則: "A new metric for stochastic language model evaluation"Euro.Conf.on Speech Commu.and Technology. Vol.4. 1591-1594 (1999)

説明

[文献書誌] 伊藤彰則: "Language modeling by stochastic dependency grammar for Japanese speech recognition"International Conf.on Spoken Language Processing. Vol.1. 246-249 (2000)

説明

[文献書誌] T.Hori, M.Katoh, A.Ito, M.Kohda: "A Study on a State Clustering-Based Topology Design Method for HM-Hets"Trans. IEICE (D-II). Vol.J81-D-II.No.10. 2239-2248 (1998)

説明

[文献書誌] T.Hori, M.Katoh, M.Kohda: "A Study on Heuristic Score Estimation in Viterbi Best-First Search for Isolated Word Recognition Using Continuous/Semi-Continuous HMMs"Trans. IEICE (D-II). Vol.J81-D-II, No.11. 2526-2534 (1998)

説明

[文献書誌] T.Hori, N.Oka, M.Katoh, A.Ito, M.Kohda: "A Study on a Phoneme-graph-based Hypothesis Restriction for Large Vocabulary Continuous Speech Recognition"Trans. IPSJ.. Vol.40, No.4. 1365-1373 (1999)

説明

[文献書誌] C.Hori, M.Katoh, A.Ito, M.Kohda: "Construction and Evaluation of Language Models Based on Stochastic Context Free Grammar for Speech Recognition"Trans. IEICE (D-II). Vol.J83-D-II, No.11. 2407-2417 (2000)

説明

[文献書誌] A.Ito, M.Kohda: "Evaluation of Task Adaptation Using N-Gram Count Mixture"Trans. IEICE (D-II). Vol.J83-D-II, No.11. 2418-2427 (2000)

説明

[文献書誌] A.Ito, M.Kohda, M.Ostendorf: "A New Metric for Stochastic Language Model Evaluation"Proc. Euro. Conf. on Speech Commu. and Technology. Vol.4. 1591-1594 (1999)

説明

[文献書誌] A.Ito, C.Hori, M.Katoh, M.Kohda: "Language Modeling by Stochastic Dependency Grammar for Japanese Speech Recognition"Proc. International Conf. on Spoken Language Processing. Vol.1. 246-249 (2000)

説明

2000 年度研究成果報告書概要

好田正紀山形大学, 工学部, 教授 (00205337)