昨年度までの2年間の成果を発展・精密化すると共に、実証実験を実施した。特に、以下の3つの研究課題を中心に研究を実施した。 (1)これまで部分転置ダブル配列という手法を考案し、ngram言語モデルの圧縮・高速化に効果的であることを確認している。本年度は、統計的機械翻訳システムと協調動作できるモジュールを整備し、部分転置ダブル配列をベースとした言語モデルの量子化を含めたトータルな性能評価を行った。その結果、メモリ使用量については、言語モデル他の実装法(例えば、SortedArray法)と同程度の量子化によるモデルサイズ削減効果を確認した。また、実行速度についても、部分転置手法を用いないダブル配列言語モデルと同等の速度を保てることを確認した。 (2)ダブル配列言語モデルをさらにコンパクトにするために線形関数を用いたダブル配列手法の適用を行った。線形関数を用いたダブル配列は、言語モデルのように非常に大きなトライにそのままの形で適用すると逆にサイズが増大してしまうことを確認した。これを解決するために、トライの各階層毎に部分転置手法を適用する手法を考案し、これによって100万エントリ程度のモデルであれば、ベース配列の長さを50%程度に圧縮できることを確認した。 (3)ダブル配列言語モデルの構築高速化手法の一つとして、部分転置手法による高速化効果を評価した。部分転置法は本来圧縮率を上げるための手法であるが、ダブル配列に配置が困難な大きな子ノード配列を小さく分割する手法であるため、高速化にも貢献できる。評価結果としては、転置対象とする子ノード配列の個数を大きくしていくと最大で2割ほど高速化できるが、さらに大きくすると高速化の効果は減少することが分かった。 最後に、これまで開発した部分転置ダブル配列言語モデルの構築およびアクセス用のソフトウェアを共有リポジトリで公開した。
|