2016 Fiscal Year Annual Research Report

統計的機械翻訳における翻訳・言語モデルの高速かつコンパクトな実装方法に関する研究

Research Project

Project/Area Number	15H02744
Research Institution	University of Tsukuba
Principal Investigator	山本幹雄筑波大学, システム情報系, 教授 (40210562)
Co-Investigator(Kenkyū-buntansha)	乾孝司筑波大学, システム情報系, 准教授 (60397031)
Project Period (FY)	2015-04-01 – 2018-03-31
Keywords	ngram言語モデル / 統計的機械翻訳 / ダブル配列
Outline of Annual Research Achievements	平成28年度は、おおよそ計画通りに研究を実施し、以下のような3つの成果を得た。（1）初年度に提案した部分転値ダブル配列データ構造を利用した言語モデルを実際に実装し、評価を行った。特に、言語モデルstateの組み込み手法を工夫し、統計的機械翻訳デコーダの効率を落とさない実装方法を考案した。評価結果としては、量子化ができないというオリジナルのダブル配列言語モデルの欠点を改良できることを示した。量子化しない場合で、オリジナルに対して速度と圧縮率でほぼ同等でありながら、8bit量子化を行った場合は約20%のサイズ縮小を達成した。（2）モデル構築時間が長いというダブル配列言語モデルの欠点を改良するために並列アルゴリズムを開発した。ダブル配列の元となるトライデータ構造を分割し、それぞれの部分トライ毎に並列にダブル配列を構築するが、ある特定の部分トライからの構築に他の部分トライの約10倍の時間がかかっていることが判明した。構築時間を均一化するため手法を検討し、トライノード数およびトライの葉ノード数を指標に分割基準を考案した。この分割基準で分割した場合、各部分の構築時間を最大で3倍の範囲内に納めることに成功した。結果として、同じ並列化数の場合、約2倍の高速化を達成した。（3）翻訳モデルの圧縮については「ベクトルbinning法」と名付けた新しい量子化手法を開発した。翻訳モデルの各翻訳フレーズペアは複数のパラメータ（典型的には4つ）を持つ。パラメータ間には相関があるため、複数のパラメータをまとめてベクトル量子化すれば効率的に圧縮できる。言語モデルで有効なbinning法と呼ばれるスカラー量子化手法をベクトル量子化に拡張する方法を開発した。これによって、パラメータ4個を8bitで量子化したときに、各パラメータを独立に量子化した場合よりもBLEU値（翻訳性能）で1ポイントの向上を達成した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 今年度は以下の3つのサブプロジェクトを計画していた。（1）部分転値ダブル配列を用いた言語モデルの実装と評価（2）ダブル配列の並列高速化（3）翻訳モデルの効率化（1）と（2）はほぼ目標を達成した。（3）については、当初予定していた翻訳モデルのインデックスにダブル配列を利用する手法では大きな圧縮率は得られなかった。このため、翻訳モデルのパラメータ量子化に焦点を当て、「ベクトルbinning法」という新しいベクトル量子化手法を考案した。残念ながら当初計画通りとはいかなかったが、パラメータ量子化手法の新しい手法を考案できたため、おおむね順調であると判断する。
Strategy for Future Research Activity	昨年度までの2年間の成果を発展・精密化すると共に、実際の統計的機械翻訳システムでの実証実験と開発したソフトウェアの公開を進める。特に、以下の二つの研究課題を中心に研究を推進する。（1）これまで「部分転置ダブル配列」という手法を考案し、ngram言語モデルの圧縮・高速化に効果的であることを確認している。本年度は、昨年度にほぼ完成している統計的機械翻訳システムと協調動作できるモジュールを用いて、「部分転置ダブル配列」をベースとした言語モデルの量子化を含めたトータルな性能評価を行う。これによって完成度を上げつつ、さらなる高速化・高圧縮率を達成する手法を検討する。アイデアとしては次のものを考えているがこの中から予備実験によって効果的と分かったアイデアに絞って検討を進める。(a)ベース配列の存在を利用したstate情報の格納効率化、(b)言語モデルの二つのパラメータ（確率値とバックオフ・ウェイト）の相関を利用したベクトル量子化、(c)次数別言語モデル間のパラメータの相関を利用したベクトル量子化、(d)単語idの付け替えによる最適化、等である。また、「部分転置ダブル配列」は言語モデル以外への応用も考えられるため、言語モデルへの応用だけではなく一般的なデータ構造としての定式化も同時に進める計画である。（2）「部分転置ダブル配列」は従来法よりも構築に時間がかかるため、これまで二つの高速化手法を開発した。一つ目は並列化時の構築時間の均等化手法、二つ目はノード配置のランダム化による高速化手法である。今年度はそれらを統合しさらなる高速化を検討する。部分転置部分の配置にランダム化は適用できないが、部分転置部分は全体のノード数の10％程度であるため、残りの90%にランダム化を適用し、同時に並列化することにより大幅な高速化が達成できると考えている。

Research Products
(3 results)

All 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Acknowledgement Compliant: 1 results) Presentation (2 results)

[Journal Article] A fast and compact language model implementation using double-array structures2016
- Author(s)
  Jun-Ya Norimatsu, Makoto Yasuhara, Toru Tanaka and Mikio Yamamoto
- Journal Title
  
  ACM Transactions on Asian and Low-Resource Language Information Processing
  
  Volume: 15(4) Pages: 27 pages
- Peer Reviewed / Acknowledgement Compliant
[Presentation] 部分転置ダブル配列を用いたngram言語モデルの実装2017
- Author(s)
  竹中孝介, 芳賀駿平, 山本幹雄
- Organizer
  言語処理学会第23回年次大会
- Place of Presentation
  筑波大学（茨城県つくば市）
- Year and Date
  2017-03-13 – 2017-03-17
[Presentation] 部分転置ダブルアレイを用いたngram言語モデルの検討2016
- Author(s)
  芳賀俊平, 谷口正訓, 山本幹雄
- Organizer
  第30回人工知能学会全国大会
- Place of Presentation
  北九州国際会議場（福岡県北九州市）
- Year and Date
  2016-06-06 – 2016-06-09

2016 Fiscal Year Annual Research Report

統計的機械翻訳における翻訳・言語モデルの高速かつコンパクトな実装方法に関する研究

Principal Investigator

山本 幹雄 筑波大学, システム情報系, 教授 (40210562)

Current Status of Research Progress

Reason

Research Products

[Journal Article] A fast and compact language model implementation using double-array structures2016

Author(s)

Journal Title

[Presentation] 部分転置ダブル配列を用いたngram言語モデルの実装2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 部分転置ダブルアレイを用いたngram言語モデルの検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

山本幹雄筑波大学, システム情報系, 教授 (40210562)