研究概要 |
本研究は,大規模な半構造データに対して,特定の条件に合致するデータを高速見つけ出し,統計処理を含むさまざまな出力を得ることができる技術の開発を目的として研究を行った.特に,文字列照合の観点から理論を展開し,それを応用した超高速なXQuery処理システムの開発を目指した. 具体的には,本年度は半構造化データに対する検索・統計手法についての考察を深め,実装上の改良を行った.半構造データを木構造や表形式に変換することなく,文字列処理を応用したストリーム処理によるシステムを開発し,国際会議において発表した. 大規模な半構造化データに対するストリーム処理をおこなう際には,ストリームの入力速度が性能の限界となる.半構造化データを予め圧縮して保持することにより,ストリームそのものの長さを短くし,圧縮されたデータを展開することなく高速に処理することで,システム全体の性能を改善することができる. そこで,圧縮されたデータに対する高度な処理として共通部分文字列を求める高速なアルゴリズムを国際会議で発表した.これは圧縮表現された文字列を展開することなく圧縮表現の多項式時間で共通部分文字列を求めるというものである. さらに,ストリームデータに対してはデータを分割し,それらに対する処理を分散することによって高速化することが可能であるが,高速化のためのみならず分散されたデータを暗号化することにより,暗号化されたまま検索する手法について提案した.
|