研究概要 |
本年度は,半構造データに対する検索・統計手法の検討を行った.ストリーム処理においては,入力データを一方向に走査していく過程において必要な処理を検索要求に関わらず,ほぼ定数時間で処理することが重要となる.そのために,半構造データに極めて単純な前処理を施すことによって,与えられた半構造データo構造的な特徴を解析し,それを用いることによる高速化技法を提案した. 提案手法で用いる,与えられた半構造データの構造的な特徴とは,半構造データを木と捉えたときの根から葉へと向かう全てのパスを保持するパストライのことである.パストライの各ノードには識別子を割り当て,その識別子を用いることで,元の半構造データを加工する.パストライのサイズは元の半構造データに比べて非常に小さなものとなり,また,加工された半構造データも元のサイズよりも小さいかあるいは同程度である. 以上の前処理を行うことにより,質問式の集合に対して,各質問式が適合する可能性がありうる場合をパストライを用いることで予め調べることができ,その結果,半構造データを走査する際には,各開始タグや終了タグに対応したパストライの各ノードにおいて適合する質問式を高速に列挙することが可能となる. また,以上の検討に基づく検索・統計手法を計算機上に実装し,手法の有効性を検討した.既存の手法との比較の結果,既存の手法よりも高速かつ省メモリであることを確認した.
|