離散型HMnetを用いた音声認識システム用言語モデルの自動獲得手法の開発

研究課題

研究課題/領域番号	11780244
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	東北大学
研究代表者	鈴木基之東北大学, 大型計算機センター, 助手 (30282015)
研究期間 (年度)	1999 – 2000
研究課題ステータス	完了 (2000年度)
配分額 *注記	2,300千円 (直接経費: 2,300千円) 2000年度: 600千円 (直接経費: 600千円) 1999年度: 1,700千円 (直接経費: 1,700千円)
キーワード	音声認識 / 言語モデル / 離散型HMnet / NL-HMnet / 有限状態オートマトン / 状態数の自動推定
研究概要	前年度は新しい言語モデル用HMnet構成法を開発し,人工言語を用いて従来からの言語モデルとの性能比較を行った。その結果,新しく開発した言語モデル(以下,NL-HMnet)は従来からの言語モデルに比べて高い性能を持つことが確認されたが,一方で学習サンプルに対する過学習が起きやすいという欠点を持つことがわかった。そこで本年度は,以下の項目について研究を行った。・一般的な自然言語に対するNL-HMnetの性能評価前年度は簡単な人工言語を用いて基本性能を評価した。そこで本年度はより一般的な自然言語に対してNL-HMnetの性能評価を行った。対象タスクには比較的文法構造が明確であると思われる解剖所見文書を用いた。n-gramと性能比較を行ったところ,特に長い文(1文あたりの単語数が多い文)が多く含まれる節でよい性能を示した。これは,NL-HMnetが遠くの位置にある単語間の相関をうまく表現できることを示していると思われる。一方で学習サンプルに対する過学習も起き,その結果テストサンプルに対するカバー率が低くなってしまった。・NL-HMnetの状態数を自動決定する方法の開発学習サンプルに対する過学習は,NL-HMnetの状態数が過剰である場合に起きる。一方状態数が過小である場合は十分な性能を持たないので,適切な状態数を設定する必要がある。従来は状態数を経験的に与えていたが,学習サンプルのみからテストセットパープレキシティを推定することで,自動的に適切な状態数を選択できる方法を開発した。従来から確率モデルの規模を選択する基準として用いられているMDLに比べ,どのような条件においても常に適切な状態数を選択できることがわかった。

報告書

(2件)

2000 実績報告書
1999 実績報告書

研究成果
(5件)

すべてその他

すべて文献書誌 (5件)

[文献書誌] 鈴木基之,牧野正三: "HMnetにおける最適な状態数の自動決定法"東北大学電気通信研究所第309回音響工学研究会資料. 308-2. 10-15 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 長野雄,鈴木基之,牧野正三: "確率的にN-gram統計を切り替える言語モデル"東北大学電気通信研究所第309回音響工学研究会資料. 309-3. 31-41 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] M.Suzuki and S.Makino: "Automatic Determination Algorithm for the Optimum Number of States in NL-HMnet"Proc.Third International Conference on Discovery Science. LNAI 1967. 306-310 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 長野雄,鈴木基之,牧野正三: "大規模言語データベースからの言語モデルの自動獲得"東北大学電気通信研究所第302回音響工学研究会資料. 302-1. 1-11 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] 長野雄,鈴木基之,牧野正三: "文節NL-HMnetを用いた文モデルの獲得"日本音響学会1999年秋季研究発表会講演論文集. I. 103-104 (1999)
- 関連する報告書
  1999 実績報告書

離散型HMnetを用いた音声認識システム用言語モデルの自動獲得手法の開発

研究代表者

鈴木 基之 東北大学, 大型計算機センター, 助手 (30282015)

2,300千円 (直接経費: 2,300千円)

報告書

研究成果

[文献書誌] 鈴木基之,牧野正三: "HMnetにおける最適な状態数の自動決定法"東北大学電気通信研究所第309回音響工学研究会資料. 308-2. 10-15 (2000)

関連する報告書

[文献書誌] 長野雄,鈴木基之,牧野正三: "確率的にN-gram統計を切り替える言語モデル"東北大学電気通信研究所第309回音響工学研究会資料. 309-3. 31-41 (2000)

関連する報告書

[文献書誌] M.Suzuki and S.Makino: "Automatic Determination Algorithm for the Optimum Number of States in NL-HMnet"Proc.Third International Conference on Discovery Science. LNAI 1967. 306-310 (2000)

関連する報告書

[文献書誌] 長野雄,鈴木基之,牧野正三: "大規模言語データベースからの言語モデルの自動獲得"東北大学電気通信研究所第302回音響工学研究会資料. 302-1. 1-11 (1999)

関連する報告書

[文献書誌] 長野雄,鈴木基之,牧野正三: "文節NL-HMnetを用いた文モデルの獲得"日本音響学会1999年秋季研究発表会講演論文集. I. 103-104 (1999)

関連する報告書

鈴木基之東北大学, 大型計算機センター, 助手 (30282015)