2016 年度実績報告書

統計的機械翻訳における翻訳・言語モデルの高速かつコンパクトな実装方法に関する研究

研究課題

研究課題/領域番号	15H02744
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, システム情報系, 教授 (40210562)
研究分担者	乾孝司筑波大学, システム情報系, 准教授 (60397031)
研究期間 (年度)	2015-04-01 – 2018-03-31
キーワード	ngram言語モデル / 統計的機械翻訳 / ダブル配列
研究実績の概要	平成28年度は、おおよそ計画通りに研究を実施し、以下のような3つの成果を得た。（1）初年度に提案した部分転値ダブル配列データ構造を利用した言語モデルを実際に実装し、評価を行った。特に、言語モデルstateの組み込み手法を工夫し、統計的機械翻訳デコーダの効率を落とさない実装方法を考案した。評価結果としては、量子化ができないというオリジナルのダブル配列言語モデルの欠点を改良できることを示した。量子化しない場合で、オリジナルに対して速度と圧縮率でほぼ同等でありながら、8bit量子化を行った場合は約20%のサイズ縮小を達成した。（2）モデル構築時間が長いというダブル配列言語モデルの欠点を改良するために並列アルゴリズムを開発した。ダブル配列の元となるトライデータ構造を分割し、それぞれの部分トライ毎に並列にダブル配列を構築するが、ある特定の部分トライからの構築に他の部分トライの約10倍の時間がかかっていることが判明した。構築時間を均一化するため手法を検討し、トライノード数およびトライの葉ノード数を指標に分割基準を考案した。この分割基準で分割した場合、各部分の構築時間を最大で3倍の範囲内に納めることに成功した。結果として、同じ並列化数の場合、約2倍の高速化を達成した。（3）翻訳モデルの圧縮については「ベクトルbinning法」と名付けた新しい量子化手法を開発した。翻訳モデルの各翻訳フレーズペアは複数のパラメータ（典型的には4つ）を持つ。パラメータ間には相関があるため、複数のパラメータをまとめてベクトル量子化すれば効率的に圧縮できる。言語モデルで有効なbinning法と呼ばれるスカラー量子化手法をベクトル量子化に拡張する方法を開発した。これによって、パラメータ4個を8bitで量子化したときに、各パラメータを独立に量子化した場合よりもBLEU値（翻訳性能）で1ポイントの向上を達成した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由今年度は以下の3つのサブプロジェクトを計画していた。（1）部分転値ダブル配列を用いた言語モデルの実装と評価（2）ダブル配列の並列高速化（3）翻訳モデルの効率化（1）と（2）はほぼ目標を達成した。（3）については、当初予定していた翻訳モデルのインデックスにダブル配列を利用する手法では大きな圧縮率は得られなかった。このため、翻訳モデルのパラメータ量子化に焦点を当て、「ベクトルbinning法」という新しいベクトル量子化手法を考案した。残念ながら当初計画通りとはいかなかったが、パラメータ量子化手法の新しい手法を考案できたため、おおむね順調であると判断する。
今後の研究の推進方策	昨年度までの2年間の成果を発展・精密化すると共に、実際の統計的機械翻訳システムでの実証実験と開発したソフトウェアの公開を進める。特に、以下の二つの研究課題を中心に研究を推進する。（1）これまで「部分転置ダブル配列」という手法を考案し、ngram言語モデルの圧縮・高速化に効果的であることを確認している。本年度は、昨年度にほぼ完成している統計的機械翻訳システムと協調動作できるモジュールを用いて、「部分転置ダブル配列」をベースとした言語モデルの量子化を含めたトータルな性能評価を行う。これによって完成度を上げつつ、さらなる高速化・高圧縮率を達成する手法を検討する。アイデアとしては次のものを考えているがこの中から予備実験によって効果的と分かったアイデアに絞って検討を進める。(a)ベース配列の存在を利用したstate情報の格納効率化、(b)言語モデルの二つのパラメータ（確率値とバックオフ・ウェイト）の相関を利用したベクトル量子化、(c)次数別言語モデル間のパラメータの相関を利用したベクトル量子化、(d)単語idの付け替えによる最適化、等である。また、「部分転置ダブル配列」は言語モデル以外への応用も考えられるため、言語モデルへの応用だけではなく一般的なデータ構造としての定式化も同時に進める計画である。（2）「部分転置ダブル配列」は従来法よりも構築に時間がかかるため、これまで二つの高速化手法を開発した。一つ目は並列化時の構築時間の均等化手法、二つ目はノード配置のランダム化による高速化手法である。今年度はそれらを統合しさらなる高速化を検討する。部分転置部分の配置にランダム化は適用できないが、部分転置部分は全体のノード数の10％程度であるため、残りの90%にランダム化を適用し、同時に並列化することにより大幅な高速化が達成できると考えている。

研究成果
(3件)

すべて 2017 2016

すべて雑誌論文 (1件) (うち査読あり 1件、謝辞記載あり 1件) 学会発表 (2件)

[雑誌論文] A fast and compact language model implementation using double-array structures2016
- 著者名/発表者名
  Jun-Ya Norimatsu, Makoto Yasuhara, Toru Tanaka and Mikio Yamamoto
- 雑誌名
  
  ACM Transactions on Asian and Low-Resource Language Information Processing
  
  巻: 15(4) ページ: 27 pages
- 査読あり / 謝辞記載あり
[学会発表] 部分転置ダブル配列を用いたngram言語モデルの実装2017
- 著者名/発表者名
  竹中孝介, 芳賀駿平, 山本幹雄
- 学会等名
  言語処理学会第23回年次大会
- 発表場所
  筑波大学（茨城県つくば市）
- 年月日
  2017-03-13 – 2017-03-17
[学会発表] 部分転置ダブルアレイを用いたngram言語モデルの検討2016
- 著者名/発表者名
  芳賀俊平, 谷口正訓, 山本幹雄
- 学会等名
  第30回人工知能学会全国大会
- 発表場所
  北九州国際会議場（福岡県北九州市）
- 年月日
  2016-06-06 – 2016-06-09

2016 年度 実績報告書

統計的機械翻訳における翻訳・言語モデルの高速かつコンパクトな実装方法に関する研究

研究代表者

山本 幹雄 筑波大学, システム情報系, 教授 (40210562)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] A fast and compact language model implementation using double-array structures2016

著者名/発表者名

雑誌名

[学会発表] 部分転置ダブル配列を用いたngram言語モデルの実装2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 部分転置ダブルアレイを用いたngram言語モデルの検討2016

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実績報告書

山本幹雄筑波大学, システム情報系, 教授 (40210562)