研究概要 |
本研究の目的は,音声認識の分野でよく用いられているHMnetを言語モデルに適用することで,遠くの位置にある単語間の相関も表現できる新しい言語モデルを開発することである。この目的を達成するため,本年度は,以下の項目について研究を行った. ・逐次状態分割法を元にした言語モデル用HMnet構成法の開発 出力確率分布として離散分布を持つ言語モデル用HMnetの構成法を開発した。はじめに前後にどんな単語が続くかを基準として単語間距離を定義した。次にそれを用いて状態分割を行うアルゴリズムを提案した。また,各状態の自己ループは単語の連続を表すことから,言語モデルとしてのHMnetには自己ループがないほうが望ましいと思われる。そこで,自己ループを持たないNL-HMnetの構成法も提案した。 ・従来からの言語モデルとの性能比較 得られた言語モデルの性能を評価するため,従来からよく用いられている言語モデルであるn-gramとの性能比較を行った。有限状態オートマトンで定義される言語に対して評価を行ったところ,特に1文が長い文(1文中の単語数が多い文)ではHMnetのほうがよい性能を示すことがわかった。このことから,HMnetは本研究の目的である遠くの位置にある単語間の相関も表現できる言語モデルであることがわかった。しかし,n-gramに比べて学習サンプルに対する過学習が起きやすいため,それに対する対処をする必要があることがわかった。
|