本研究は2つのテーマで研究を行っているが、2020年度は2019年度までに開発した手法についてある程度の規模のデータによってその有効性を検証するとともに、ダブル配列言語モデルのさらなる圧縮法として文脈付き単語ID付与による方法を提案した。 【I.モデル構築の高速化】 BM(Boyer-Moore) 法のようにsuffixベースの文字列マッチングアルゴリズムを用いれば配置に失敗したときの次候補へのスキップ幅を大きくできる。2019年度までに、ダブル配列と挿入ノードの衝突を判定する際の走査順を変更することでより大きな挿入位置の変化量を獲得し、ノードの挿入位置の探索回数を削減することができる手法を開発した。2020年度はデータ量を5億エントリー(5億種類の5gram)まで増やすことによって検証を行った。その結果、提案手法はデータが大きくなるに従って、従来法よりも高速になる割合が増加することを確認し、データのサイズに対してスケールすることを実証した。 【II. ダブル配列言語モデルのさらなる圧縮】 トライ木をElias-Fanoコーディングを用いて圧縮する際に圧縮効率を上げるために用いられる単語IDの付け替え手法(remapping)技術をダブル配列に応用し、圧縮効率を高める方法を提案した。具体的には、トライ木の各ノードから子ノード集合への遷移時に利用する単語ID幅を文脈(その単語の直前までの単語連鎖)によって限定することで、ダブル配列に格納される遷移先ノード番号の分散を防ぎ隙間を減らすことによって圧縮率を高める方法である。実験によってデータサイズの増加とともに圧縮率が高まることを確認し、10億のngramデータに対しては本手法を使わない場合のサイズからさらに13%圧縮できることを示した。
|