2000 Fiscal Year Annual Research Report
離散型HMnetを用いた音声認識システム用言語モデルの自動獲得手法の開発
Project/Area Number |
11780244
|
Research Institution | Tohoku University |
Principal Investigator |
鈴木 基之 東北大学, 大型計算機センター, 助手 (30282015)
|
Keywords | 音声認識 / 言語モデル / 離散型HMnet / NL-HMnet / 有限状態オートマトン / 状態数の自動推定 |
Research Abstract |
前年度は新しい言語モデル用HMnet構成法を開発し,人工言語を用いて従来からの言語モデルとの性能比較を行った。その結果,新しく開発した言語モデル(以下,NL-HMnet)は従来からの言語モデルに比べて高い性能を持つことが確認されたが,一方で学習サンプルに対する過学習が起きやすいという欠点を持つことがわかった。 そこで本年度は,以下の項目について研究を行った。 ・一般的な自然言語に対するNL-HMnetの性能評価 前年度は簡単な人工言語を用いて基本性能を評価した。そこで本年度はより一般的な自然言語に対してNL-HMnetの性能評価を行った。対象タスクには比較的文法構造が明確であると思われる解剖所見文書を用いた。n-gramと性能比較を行ったところ,特に長い文(1文あたりの単語数が多い文)が多く含まれる節でよい性能を示した。これは,NL-HMnetが遠くの位置にある単語間の相関をうまく表現できることを示していると思われる。一方で学習サンプルに対する過学習も起き,その結果テストサンプルに対するカバー率が低くなってしまった。 ・NL-HMnetの状態数を自動決定する方法の開発 学習サンプルに対する過学習は,NL-HMnetの状態数が過剰である場合に起きる。一方状態数が過小である場合は十分な性能を持たないので,適切な状態数を設定する必要がある。従来は状態数を経験的に与えていたが,学習サンプルのみからテストセットパープレキシティを推定することで,自動的に適切な状態数を選択できる方法を開発した。従来から確率モデルの規模を選択する基準として用いられているMDLに比べ,どのような条件においても常に適切な状態数を選択できることがわかった。
|
Research Products
(3 results)
-
[Publications] 鈴木基之,牧野正三: "HMnetにおける最適な状態数の自動決定法"東北大学電気通信研究所第309回音響工学研究会資料. 308-2. 10-15 (2000)
-
[Publications] 長野雄,鈴木基之,牧野正三: "確率的にN-gram統計を切り替える言語モデル"東北大学電気通信研究所第309回音響工学研究会資料. 309-3. 31-41 (2000)
-
[Publications] M.Suzuki and S.Makino: "Automatic Determination Algorithm for the Optimum Number of States in NL-HMnet"Proc.Third International Conference on Discovery Science. LNAI 1967. 306-310 (2000)