研究概要 |
平成24年度はmap/reduceシステム上で巨大データ集合RとSの間の多対多関係に基づいた等結合演算を対象に,データ偏りに伴う負荷分散・高速実行アルゴリズムを提案した.提案内容は,データ集合RとSの間に成立する多:多関係を抽出するための等結合であり,一般に find (r,s) from R x S where r.A = s.A and f(r,s) と書ける場合を対象にした.f(r,s)はデータrとsの類似度や一致度を与える外部関数であり,r.A, s.Aは照合範囲を絞るための signatureである.このタイプの結合演算(n:m結合)は,類似度結合やユーザ定義関数を使った結合,距離結合や範囲結合で広く使われる基本的なデータ処理演算であり,map/reduce上での高速化が最近注目されている.本研究では,n:m結合においてデータ偏りとCPU計算偏りに対抗することが本質的と考え,その解決手段として,Hybrid Skew Join with Bucket Regrouping(HSJ+BR)を考案した. HSJ+BRは,ハイブリッドハッシュ結合に基づいた2回のmap/reduceジョブで構成される.すなわち,(1) build処理としてRを主記憶サイズより小さな細粒度バケットに分割するmap/reduceジョブを実行し,(2) その度数分布情報をコントローラが集めた後,バケットの再グループ化によるパーティション構成案とreducer数を増やすことによる処理の分散化プランを決定して,(3) 当該プランに基づいてprobe処理のmap/reduceジョブを実行する.実質5ノードのHadoopクラスタで1000万件x1000万件,偏り最大0.5%の等結合においてノードあたりの最大・最小時間比率を100:1から4:3へと向上でき,全体処理時間も2.5倍高速化できた.
|