研究概要 |
ダブル配列をトライの深さごとに分割し,その分割したブロックの開始位置からの距離をBASE値とすることにより圧縮する手法のデータ構造とアルゴリズムを提案した.本手法を用いて,現在までに研究されている圧縮手法をさらに圧縮できることを確認した. 1.トライの深さごとにブロックに分割を行った.各ブロックのBASE値を,次のブロックの開始位置からの距離とすることにより,各BASE値を小さくすることができ,BASE配列を圧縮することができた. 2.分割したブロックのサイズが異なることに着目し,ダブル配列の2式を次のブロックとの大きさの割合をBASE値にかける次の式に変更することにより.さらにBASE値を小さく出来た. t=s*r[d] + BASE[d][s] + CODE[c] t - s*r[d] = CHECK[d+1][t] ここでrは次のブロックとの大きさの割合.dは,トライの深さを表す. 3.1,2の手法を実現したまま,CHECK値に遷移した文字を格納し,CHECK配列を圧縮できることを確認した. 4.上記のアルゴリズムをコンピュータ上で実現し,できるだけBASEの値が小さくなるように,試行錯誤を繰り返し,キーの追加アルゴリズムを改善した. 5.特許記事から抽出した数百万件に及ぶキー集合を登録し圧縮率を求めた.また,従来のダブル配列,17年度の手法との圧縮率,速度の比較実験を行った.
|