平成21年度の研究実施計画は1)前提条件の緩和による適用範囲の拡大と2)応用への適用であった。1)の緩和対象の前提条件の適用範囲を大きく拡大するために、RDFだけでなく任意のデータ集合に対して適用できること、また従来のHDDだけでなくSSDなどの新しいハードウェアでの高速化を目指し、結合演算の高速化を実施した。なお、計画ではトップダウンな分散環境への適用とマテリアライズドビューを用いた手法の発展であったが、結果的には索引を用いた手法の提案に至った。これらは中間構造として類似のものであるため、本質的には同義である。性能評価の実験として、2)の応用への適用を目的に、人工データのみでなく、実データとして、DBpediaとGeonamesというRDFデータを用いて実験を行った。HDDに対しSSD上で利用した場合に、結合選択率に関わらず、常に5%程度効率的であるという結果であった。実験は、人工データは1000万タプル同士、実データはおよそ350万タプルと3300万タプルの実験データで、結合選択率の異なる12パターンで実験した。提案手法の概要は、従来のB木に対し、中間ノードが子孫のデータの範囲を保持できるように拡張した索引同士で結合演算を行う場合、中間ノード同士でオーバーラップ比較を行うことで、子孫に結合可能タプルが存在しない事を決定でき、子孫を読む必要がなくなる。すなわちマージ結合時にすべての葉へ到達する必要がなくなり、読み飛ばしをすることができる。これによって10コストを減少させることが可能である。しかし一方ランダムアクセスが頻出するが、ランダムアクセスが高速であるというSSDの特徴により問題化しない。3年間の研究成果として、RDFの分散結合手法に対し大幅な効率化が実現できた。
|