2016 Fiscal Year Annual Research Report
統計的機械翻訳における翻訳・言語モデルの高速かつコンパクトな実装方法に関する研究
Project/Area Number |
15H02744
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
Co-Investigator(Kenkyū-buntansha) |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | ngram言語モデル / 統計的機械翻訳 / ダブル配列 |
Outline of Annual Research Achievements |
平成28年度は、おおよそ計画通りに研究を実施し、以下のような3つの成果を得た。 (1)初年度に提案した部分転値ダブル配列データ構造を利用した言語モデルを実際に実装し、評価を行った。特に、言語モデルstateの組み込み手法を工夫し、統計的機械翻訳デコーダの効率を落とさない実装方法を考案した。評価結果としては、量子化ができないというオリジナルのダブル配列言語モデルの欠点を改良できることを示した。量子化しない場合で、オリジナルに対して速度と圧縮率でほぼ同等でありながら、8bit量子化を行った場合は約20%のサイズ縮小を達成した。 (2)モデル構築時間が長いというダブル配列言語モデルの欠点を改良するために並列アルゴリズムを開発した。ダブル配列の元となるトライデータ構造を分割し、それぞれの部分トライ毎に並列にダブル配列を構築するが、ある特定の部分トライからの構築に他の部分トライの約10倍の時間がかかっていることが判明した。構築時間を均一化するため手法を検討し、トライノード数およびトライの葉ノード数を指標に分割基準を考案した。この分割基準で分割した場合、各部分の構築時間を最大で3倍の範囲内に納めることに成功した。結果として、同じ並列化数の場合、約2倍の高速化を達成した。 (3)翻訳モデルの圧縮については「ベクトルbinning法」と名付けた新しい量子化手法を開発した。翻訳モデルの各翻訳フレーズペアは複数のパラメータ(典型的には4つ)を持つ。パラメータ間には相関があるため、複数のパラメータをまとめてベクトル量子化すれば効率的に圧縮できる。言語モデルで有効なbinning法と呼ばれるスカラー量子化手法をベクトル量子化に拡張する方法を開発した。これによって、パラメータ4個を8bitで量子化したときに、各パラメータを独立に量子化した場合よりもBLEU値(翻訳性能)で1ポイントの向上を達成した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は以下の3つのサブプロジェクトを計画していた。 (1)部分転値ダブル配列を用いた言語モデルの実装と評価 (2)ダブル配列の並列高速化 (3)翻訳モデルの効率化 (1)と(2)はほぼ目標を達成した。(3)については、当初予定していた翻訳モデルのインデックスにダブル配列を利用する手法では大きな圧縮率は得られなかった。このため、翻訳モデルのパラメータ量子化に焦点を当て、「ベクトルbinning法」という新しいベクトル量子化手法を考案した。残念ながら当初計画通りとはいかなかったが、パラメータ量子化手法の新しい手法を考案できたため、おおむね順調であると判断する。
|
Strategy for Future Research Activity |
昨年度までの2年間の成果を発展・精密化すると共に、実際の統計的機械翻訳システムでの実証実験と開発したソフトウェアの公開を進める。特に、以下の二つの研究課題を中心に研究を推進する。 (1)これまで「部分転置ダブル配列」という手法を考案し、ngram言語モデルの圧縮・高速化に効果的であることを確認している。本年度は、昨年度にほぼ完成している統計的機械翻訳システムと協調動作できるモジュールを用いて、「部分転置ダブル配列」をベースとした言語モデルの量子化を含めたトータルな性能評価を行う。これによって完成度を上げつつ、さらなる高速化・高圧縮率を達成する手法を検討する。アイデアとしては次の ものを考えているがこの中から予備実験によって効果的と分かったアイデアに絞って検討を進める。(a)ベース配列の存在を利用したstate情報の格納効率化、(b)言語モデルの二つのパラメータ(確率値とバックオフ・ウェイト)の相関を利用したベクトル量子化、(c)次数別言語モデル間のパラメータの相関を利用したベクトル量子化、(d)単語idの付け替えによる最適化、等である。また、「部分転置ダブル配列」は言語モデル以外への応用も考えられるため、言語モデルへの応用だけではなく一般的なデータ構造としての定式化も同時に進める計画である。 (2)「部分転置ダブル配列」は従来法よりも構築に時間がかかるため、これまで二つの高速化手法を開発した。一つ目は並列化時の構築時間の均等化手法、二つ目はノード配置のランダム化による高速化手法である。今年度はそれらを統合しさらなる高速化を検討する。部分転置部分の配置にランダム化は適用できないが、部分転置部分は全体のノード数の10%程度であるため、残りの90%にランダム化を適用し、同時に並列化することにより大幅な高速化が達成できると考えている。
|
Research Products
(3 results)