1997 Fiscal Year Annual Research Report
Project/Area Number |
09780326
|
Research Institution | Nagoya University |
Principal Investigator |
武田 一哉 名古屋大学, 工学研究科, 助教授 (20273295)
|
Keywords | 大規模言語コーパス / 形態素解析 / 一般化ベルヌ-イ試行 / 連続音声認識 / 言語モデル / 言語エントロピー / 単語パ-プレキシティー |
Research Abstract |
1.データの整備:研究の遂行に不可欠である大規模な言語コーパス(新聞記事データベース)を購入するとともに、研究遂行のためのテキストコーパス処理用各種ツールプログラムを作成した。 2.モデルの構造:一般化ベルヌ-イ試行モデルに基づく言語モデルを考案し、このモデルが(1)「従来の単語N-gramモデルにおいては文長が正しく考慮されていない」という欠点を補いうるものであること、(2)従来経験的に用いられてきた単語挿入ペナルティスコア付けと等価な働きを持つこと、の2点を理論的に明らかにした。 3.単語を単位とする言語モデル:一般化ベルヌ-イ試行モデルにもとづく言語モデルを、単語バイグラム、単語トライグラムをベースに作成した。 4.認識実験によるモデル評価:連続音声認識実験により、提案したモデルの特性を詳細に調査した。その結果、(1)提案モデルを用いることで認識性能を大きく改善することが可能であること。(2)提案モデルは、通常経験的に決定されている音響確率に対する言語確率の重み係数(言語重み)、の値に過敏でなく、音響確率のレンジの変動に対して頑健なモデルであること、の2点を実験的に確認した。これらの結果は、2項において理論的に得られた結果と一致するものである。 5.単語クラスタリング実験:さらに、モデルの精度を向上させるとともに、本研究の目的の一部である、計量的言語空間の構成を行うため、相互情報量により定義された単語間距離にもとづく単語クラスタリングの実験を開始した。
|
-
[Publications] 小川・武田・板倉: "文長を考慮した言語モデルの検討" 情報処理学会、音声言語処理研究会資料. 16・5. 25-30 (1997)
-
[Publications] 小川・武田・板倉: "一般化ベルヌ-イ試行に基づく言語モデル" 音響学会 全国大会 講演論文集(平成9年度秋期). 2-1-1. 49-50 (1997)
-
[Publications] A.Ogawa, K.Takeda, F.Itakura: "A Language Model Based on Generalized Bernoulli Trials" Proc.of.Intem.Conf.on Speech Proc.ICSP‘97. 2. 765-770 (1997)
-
[Publications] A.Ogawa, K.Takeda, F.Itakura: "Language Modeling for Robust Balancing of Acoustic and Lingustic Probablities" Proc.of.IEEE Workshop on Automatic Speech and Understanding Recognition. 246-253 (1997)