2009 Fiscal Year Annual Research Report
接尾辞木に基づく大規模文字列索引の効率よい構築アルゴリズム
Project/Area Number |
09J02025
|
Research Institution | Hokkaido University |
Principal Investigator |
上村 卓史 Hokkaido University, 大学院・情報科学研究科, 特別研究員(DC2)
|
Keywords | 接尾辞木 / データ圧縮 / VF符号 / STVF / AIVF |
Research Abstract |
本年度は,接尾辞木の重要な応用のひとつとして,VF符号と呼ばれるデータ圧縮方式に関して圧縮率を向上させたアルゴリズムを提案した.この成果は,2008年に喜田が提案したSTVF符号を基に,山本らが2001年に提案したAIVF符号のアイディアを適用し,圧縮時に用いられる分節木の構築アルゴリズムを改良したものである.本手法の特長は,圧縮時の符号決定規則にAIVF符号と同様の小さな変更を加えることで,STVF符号に比してより柔軟に分節木を構築できる点にある.これにより,テキスト中に頻出な部分文字列をより効率よく分節木に格納することができ,圧縮率を高めることが可能である.また,提案手法はSTVF符号と同様に,圧縮済みデータから復号せずに直接パターン照合を行う圧縮照合と呼ばれる技術へ適用することができるため,元のデータから照合するより高速に処理可能であるという特長も受け継いでいる.英文テキストデータによる計算機実験では,STVF符号に対し圧縮率と圧縮照合速度の改善を確認した. 来年度への課題としては,さらによい圧縮率と圧縮照合速度を達成するべく,本データ圧縮手法を改善していくことがまずあげられる,また,本年度間に合わなかった索引構築アルゴリズムの提案をし,最終的な目的である大規模文字列索引の構築アルゴリズムを確立する予定である.その後は,本年度提案したデータ圧縮も含め,より多くの実用的な応用を視野に入れつつ,提案手法の有効性を検証していきたい.
|
Research Products
(2 results)