研究概要 |
前年度は新しい言語モデル用HMnet構成法を開発し,人工言語を用いて従来からの言語モデルとの性能比較を行った。その結果,新しく開発した言語モデル(以下,NL-HMnet)は従来からの言語モデルに比べて高い性能を持つことが確認されたが,一方で学習サンプルに対する過学習が起きやすいという欠点を持つことがわかった。 そこで本年度は,以下の項目について研究を行った。 ・一般的な自然言語に対するNL-HMnetの性能評価 前年度は簡単な人工言語を用いて基本性能を評価した。そこで本年度はより一般的な自然言語に対してNL-HMnetの性能評価を行った。対象タスクには比較的文法構造が明確であると思われる解剖所見文書を用いた。n-gramと性能比較を行ったところ,特に長い文(1文あたりの単語数が多い文)が多く含まれる節でよい性能を示した。これは,NL-HMnetが遠くの位置にある単語間の相関をうまく表現できることを示していると思われる。一方で学習サンプルに対する過学習も起き,その結果テストサンプルに対するカバー率が低くなってしまった。 ・NL-HMnetの状態数を自動決定する方法の開発 学習サンプルに対する過学習は,NL-HMnetの状態数が過剰である場合に起きる。一方状態数が過小である場合は十分な性能を持たないので,適切な状態数を設定する必要がある。従来は状態数を経験的に与えていたが,学習サンプルのみからテストセットパープレキシティを推定することで,自動的に適切な状態数を選択できる方法を開発した。従来から確率モデルの規模を選択する基準として用いられているMDLに比べ,どのような条件においても常に適切な状態数を選択できることがわかった。
|