2014 Fiscal Year Annual Research Report
最適状態探索とCHECK領域の削除によるダブル配列の辞書圧縮手法に関する研究
Project/Area Number |
24500118
|
Research Institution | The University of Tokushima |
Principal Investigator |
泓田 正雄 徳島大学, ソシオテクノサイエンス研究部, 准教授 (10304552)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | トライ / ダブル配列 / 情報検索 |
Outline of Annual Research Achievements |
データを扱う最も基本的な操作である「検索」には,高速化や省メモリ化が必須の条件となっている.検索のためのデータ構造に,木構造の頂点を遷移することにより検索を行うトライ(オートマトンの一種)があり,トライを実現する手法で最も高速な手法がダブル配列である.しかし,ダブル配列は,LOUDSなどの他の手法に比べ,サイズが大きいという問題があるので,ダブル配列の高速性を保ったまま,サイズを小さくする手法の研究がなされている. ダブル配列ではBASEとCHECKと呼ばれる2つの配列により実現されている.配列の長さはトライの状態数であり,一つの要素はBASEに4バイト,CHECKに1バイト必要となる.本研究では,このCHECK配列を削除することにより,ダブル配列のサイズを圧縮する手法を提案する.従来のダブル配列では,状態sに遷移する文字cがCHECK[s]に格納されていたが,「BASE[s]%出現文字数 = cの内部表現値」とすることにより,BASEに次の遷移先の情報と,遷移してきた文字の2つ情報を保持した. 複数のキー集合に対して実験をした結果,キー集合によってはサイズが大きくなる場合があった.これはBASEに制約をつけたため,配列に空き要素が多くでき,結果的に合計サイズが従来法のサイズを超えてしまったためであった.しかし,キー集合に用いられている文字種が少ない場合には,従来法よりサイズが小さく,検索速度の低下はわずかとなり,有効な手法であることが確認できた.
|
Research Products
(1 results)