2020 Fiscal Year Annual Research Report

Construction speedup and deepening of partially transpose double array ngram language models

Research Project

Project/Area Number	18K11423
Research Institution	University of Tsukuba
Principal Investigator	山本幹雄筑波大学, システム情報系, 教授 (40210562)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	ngram言語モデル / ダブル配列 / 文字列マッチング / Boyer-Moore / Elias-Fano符号化法 / Remapping
Outline of Annual Research Achievements	本研究は2つのテーマで研究を行っているが、2020年度は2019年度までに開発した手法についてある程度の規模のデータによってその有効性を検証するとともに、ダブル配列言語モデルのさらなる圧縮法として文脈付き単語ID付与による方法を提案した。【I.モデル構築の高速化】 BM(Boyer-Moore) 法のようにsuffixベースの文字列マッチングアルゴリズムを用いれば配置に失敗したときの次候補へのスキップ幅を大きくできる。2019年度までに、ダブル配列と挿入ノードの衝突を判定する際の走査順を変更することでより大きな挿入位置の変化量を獲得し、ノードの挿入位置の探索回数を削減することができる手法を開発した。2020年度はデータ量を5億エントリー(5億種類の5gram)まで増やすことによって検証を行った。その結果、提案手法はデータが大きくなるに従って、従来法よりも高速になる割合が増加することを確認し、データのサイズに対してスケールすることを実証した。【II. ダブル配列言語モデルのさらなる圧縮】トライ木をElias-Fanoコーディングを用いて圧縮する際に圧縮効率を上げるために用いられる単語IDの付け替え手法(remapping)技術をダブル配列に応用し、圧縮効率を高める方法を提案した。具体的には、トライ木の各ノードから子ノード集合への遷移時に利用する単語ID幅を文脈(その単語の直前までの単語連鎖)によって限定することで、ダブル配列に格納される遷移先ノード番号の分散を防ぎ隙間を減らすことによって圧縮率を高める方法である。実験によってデータサイズの増加とともに圧縮率が高まることを確認し、10億のngramデータに対しては本手法を使わない場合のサイズからさらに13%圧縮できることを示した。

Research Products
(1 results)

All Presentation (1 results)

[Presentation] 階層的Encoder-Decoderモデルによる宿泊施設レビュー文書に対する応答文書生成2020
- Author(s)
  橋爪友莉子, 山本幹雄
- Organizer
  2020年度人工知能学会全国大会