2017 年度実績報告書

統計的機械翻訳における翻訳・言語モデルの高速かつコンパクトな実装方法に関する研究

研究課題

研究課題/領域番号	15H02744
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, システム情報系, 教授 (40210562)
研究分担者	乾孝司筑波大学, システム情報系, 准教授 (60397031)
研究期間 (年度)	2015-04-01 – 2018-03-31
キーワード	言語モデル / ダブル配列 / 統計的機械翻訳 / トライ
研究実績の概要	昨年度までの2年間の成果を発展・精密化すると共に、実証実験を実施した。特に、以下の3つの研究課題を中心に研究を実施した。（1）これまで部分転置ダブル配列という手法を考案し、ngram言語モデルの圧縮・高速化に効果的であることを確認している。本年度は、統計的機械翻訳システムと協調動作できるモジュールを整備し、部分転置ダブル配列をベースとした言語モデルの量子化を含めたトータルな性能評価を行った。その結果、メモリ使用量については、言語モデル他の実装法（例えば、SortedArray法)と同程度の量子化によるモデルサイズ削減効果を確認した。また、実行速度についても、部分転置手法を用いないダブル配列言語モデルと同等の速度を保てることを確認した。（2）ダブル配列言語モデルをさらにコンパクトにするために線形関数を用いたダブル配列手法の適用を行った。線形関数を用いたダブル配列は、言語モデルのように非常に大きなトライにそのままの形で適用すると逆にサイズが増大してしまうことを確認した。これを解決するために、トライの各階層毎に部分転置手法を適用する手法を考案し、これによって100万エントリ程度のモデルであれば、ベース配列の長さを50%程度に圧縮できることを確認した。（3）ダブル配列言語モデルの構築高速化手法の一つとして、部分転置手法による高速化効果を評価した。部分転置法は本来圧縮率を上げるための手法であるが、ダブル配列に配置が困難な大きな子ノード配列を小さく分割する手法であるため、高速化にも貢献できる。評価結果としては、転置対象とする子ノード配列の個数を大きくしていくと最大で2割ほど高速化できるが、さらに大きくすると高速化の効果は減少することが分かった。最後に、これまで開発した部分転置ダブル配列言語モデルの構築およびアクセス用のソフトウェアを共有リポジトリで公開した。
現在までの達成度 (段落)	29年度が最終年度であるため、記入しない。
今後の研究の推進方策	29年度が最終年度であるため、記入しない。

研究成果

(1件)

すべて学会発表 (1件)

[学会発表] 細粒度並列処理によるダブル配列言語モデルの構築高速化2018
- 著者名/発表者名
  石井瑛彦、芳賀駿平、竹中孝介、大隈賢二、山本幹雄
- 学会等名
  第24回言語処理学会年次大会