大量データ上の多対多関係情報の抽出を行う類似結合演算の計算技法は従来から多くあるが,mapreduce上では,計算モデルに特有な性能の不安定さがあり,大量データ処理演算として確立していなかった.本研究では,この不安定さを解決する汎用的なアルゴリズム効率化戦略として,(i) 多対多等結合で微小なデータ偏りが引き起こす負荷偏在を解決する技法HSJ+BR,および,(ii) 類似結合算法が使うレコードコピー量とshuffleコストを抑制する2段階ハッシュ分割戦略による効率化技法,の2つを提案して,編集距離結合など多様な類似結合計算のmapreduce上の不安定さを解決する戦略として有効性を示した.
|