1999 Fiscal Year Annual Research Report
新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムの研究
Project/Area Number |
10680368
|
Research Institution | Yamagata University |
Principal Investigator |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 正治 山形大学, 工学部, 助手 (10250953)
伊藤 彰則 山形大学, 工学部, 助教授 (70232428)
|
Keywords | 大語彙連続音声認識 / マルチパスサーチ / 音素グラフ / 単語グラフ / HM-Net / N-gram / SCFG / MLLR話者適応 |
Research Abstract |
大語彙連続音声認識は探索空間が非常に大きくなるために、処理量削減のための認識アルゴリズムの設計は非常に重要な鍵となる。本研究では、音素グラフに基づく仮説制限による処理量削減の効果を評価した。そこでは、認識の前処理として、音素グラフを生成し、この音素グラフに含まれる情報を利用して、音素境界制限と先読みによる枝刈りを行う。音素グラフは複数の音素列候補を含んでいるため精度良く境界を限定することが可能であり、かつ、音素グラフ上を後向きに累積したスコアを先読みスコアとすることによって2音素程度の先読み効果がある。この手法を状態クラスタリングで生成したHM-Netと単語N-gramを用いた大語彙連続音声認識システムに導入して、語彙サイズ5000の新聞記事読み上げ音声で評価し、処理時間の約70%を削減できることを示した。さらに、音素グラフ生成の際に、Fast Matchモデルを用いて1音素先読みを行うことで、音素グラフ生成自体の処理量削減をはかる。この手法を、語彙サイズ20000の新聞記事読み上げ音声で評価し、音素グラフに基づく仮説制限の導入は、単語誤り率をほとんど増加させることなく処理時間の約60%を削減できることを示した。 単語グラフ生成の言語重み・挿入ペナルティの最適化に関して、単語グラフ生成に用いる言語モデルでリスコアする手法を提案し、上記と同じ音声認識システムで評価して有効性を確認した。確率文脈自由文法(SCFG)を大語彙連続音声認識に適用するために、文節単位の係受け制約を持つSCFGを提案し、このSCFGをTrigramと併用すると、Trigram単独の場合よりも性能が良くなることを確認した。また、音響モデルのMLLRベース話者適応に関して、MDL基準に基づく回帰クラスタ自動設定、MAP法との併用、SATコンパクトモデルの利用、等を検討した。
|
Research Products
(13 results)
-
[Publications] 堀 貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討"情報処理学会論文誌. 40,4. 1365-1373 (1999)
-
[Publications] 伊藤 彰則: "尤度差に基づくn-gram言語モデル評価のための指標"電子情報通信学会技術研究報告. SP99-39. 95-102 (1999)
-
[Publications] 堀 智織: "確率文脈自由文法を用いた言語モデルの構築と音声認識実験による評価"電子情報通信学会技術研究報告. SP99-37. 79-86 (1999)
-
[Publications] 伊藤 彰則: "A new metric for stochastic language model evaluation"Eurospeech '99. S8.po1. 1591-1594 (1999)
-
[Publications] 加藤 正治: "複数の認識出力の統合による性能改善の検討"日本音響学会講演論文集. 2-1-16. 85-86 (1999)
-
[Publications] 斎藤 秀樹: "bigram に基づく ergodic HMM による言語モデルの検討"日本音響学会講演論文集. 3-1-3. 101-102 (1999)
-
[Publications] 伊藤 彰則: "N-best 候補からの言語重みと挿入ペナルティの最適化に関する検討"情報処理学会研究報告. 99-SLP-28-6. 35-40 (1999)
-
[Publications] 岡 直生: "音素グラフに基づく仮説制限法を用いた大語彙連続音声認識の検討"電子情報通信学会技術研究報告. SP99-126. 67-72 (1999)
-
[Publications] 加納 淳也: "話者照合における話者モデルの MLLR 適応の検討"電子情報通信学会技術研究報告. SP99-102. 55-60 (1999)
-
[Publications] 斎院 俊典: "単語グラフ生成の言語重み・挿入ペナルティ最適化の検討"日本音響学会講演論文集. 2-8-12. 47-48 (2000)
-
[Publications] 加納 淳也: "MLLR 適応における MDL 基準に基づく回帰クラスタ設定の検討"日本音響学会講演論文集. 3-9-5. 103-104 (2000)
-
[Publications] 斎藤 秀樹: "Trigram に基づく Ergodic HMM による言語モデルの検討"日本音響学会講演論文集. 2-8-12. 51-52 (2000)
-
[Publications] 小笠原 教充: "品詞と高頻度単語の N-gram を使用したタスク適応の検討"日本音響学会講演論文集. 3-8-5. 75-76 (2000)