2017 Fiscal Year Annual Research Report
A study on compact and fast translation and language models for statistical machine translation
Project/Area Number |
15H02744
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
Co-Investigator(Kenkyū-buntansha) |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 言語モデル / ダブル配列 / 統計的機械翻訳 / トライ |
Outline of Annual Research Achievements |
昨年度までの2年間の成果を発展・精密化すると共に、実証実験を実施した。特に、以下の3つの研究課題を中心に研究を実施した。 (1)これまで部分転置ダブル配列という手法を考案し、ngram言語モデルの圧縮・高速化に効果的であることを確認している。本年度は、統計的機械翻訳システムと協調動作できるモジュールを整備し、部分転置ダブル配列をベースとした言語モデルの量子化を含めたトータルな性能評価を行った。その結果、メモリ使用量については、言語モデル他の実装法(例えば、SortedArray法)と同程度の量子化によるモデルサイズ削減効果を確認した。また、実行速度についても、部分転置手法を用いないダブル配列言語モデルと同等の速度を保てることを確認した。 (2)ダブル配列言語モデルをさらにコンパクトにするために線形関数を用いたダブル配列手法の適用を行った。線形関数を用いたダブル配列は、言語モデルのように非常に大きなトライにそのままの形で適用すると逆にサイズが増大してしまうことを確認した。これを解決するために、トライの各階層毎に部分転置手法を適用する手法を考案し、これによって100万エントリ程度のモデルであれば、ベース配列の長さを50%程度に圧縮できることを確認した。 (3)ダブル配列言語モデルの構築高速化手法の一つとして、部分転置手法による高速化効果を評価した。部分転置法は本来圧縮率を上げるための手法であるが、ダブル配列に配置が困難な大きな子ノード配列を小さく分割する手法であるため、高速化にも貢献できる。評価結果としては、転置対象とする子ノード配列の個数を大きくしていくと最大で2割ほど高速化できるが、さらに大きくすると高速化の効果は減少することが分かった。 最後に、これまで開発した部分転置ダブル配列言語モデルの構築およびアクセス用のソフトウェアを共有リポジトリで公開した。
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Research Products
(1 results)