2012 Fiscal Year Research-status Report
大規模データ処理基盤におけるデータ空間の生成演算と更新方式に関する研究
Project/Area Number |
24500109
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
大森 匡 電気通信大学, 大学院情報システム学研究科, 教授 (30233274)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 巨大データ処理 / 結合演算 / map/reduce / 類似結合 / ハッシュ結合 |
Research Abstract |
平成24年度はmap/reduceシステム上で巨大データ集合RとSの間の多対多関係に基づいた等結合演算を対象に,データ偏りに伴う負荷分散・高速実行アルゴリズムを提案した.提案内容は,データ集合RとSの間に成立する多:多関係を抽出するための等結合であり,一般に find (r,s) from R x S where r.A = s.A and f(r,s) と書ける場合を対象にした.f(r,s)はデータrとsの類似度や一致度を与える外部関数であり,r.A, s.Aは照合範囲を絞るための signatureである.このタイプの結合演算(n:m結合)は,類似度結合やユーザ定義関数を使った結合,距離結合や範囲結合で広く使われる基本的なデータ処理演算であり,map/reduce上での高速化が最近注目されている.本研究では,n:m結合においてデータ偏りとCPU計算偏りに対抗することが本質的と考え,その解決手段として,Hybrid Skew Join with Bucket Regrouping(HSJ+BR)を考案した. HSJ+BRは,ハイブリッドハッシュ結合に基づいた2回のmap/reduceジョブで構成される.すなわち,(1) build処理としてRを主記憶サイズより小さな細粒度バケットに分割するmap/reduceジョブを実行し,(2) その度数分布情報をコントローラが集めた後,バケットの再グループ化によるパーティション構成案とreducer数を増やすことによる処理の分散化プランを決定して,(3) 当該プランに基づいてprobe処理のmap/reduceジョブを実行する.実質5ノードのHadoopクラスタで1000万件x1000万件,偏り最大0.5%の等結合においてノードあたりの最大・最小時間比率を100:1から4:3へと向上でき,全体処理時間も2.5倍高速化できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画にあげた課題のうち,巨大非定型データから意味のある情報を表すデータ空間作成演算として,平成24年度は,多:多結合演算で制約の緩い等結合と類似度判定などの外部関数を含む場合を取り上げた.効率的な実行アルゴリズムとして,データ偏りへの対応が問題の本質と考え,Grace-Hash Joinで伝統的に使われる2段階ハッシュ分割に相当する手法を導入し,サンプリングなしの非定型データ変換の状況で利用可能であるなど,一定の成果を上げた.一方で,望ましい情報空間を生成するためには類似結合や距離結合など個々の制約条件に応じたHSJ+BRの方針に基づく処理アルゴリズムの特殊化が必要であり,この点の追及が問題として残った. 以上の理由により,おおむね順調な進展と見なす.
|
Strategy for Future Research Activity |
初年度のHSJ+BRの戦略を発展させて,類似度や距離制約,範囲結合などの個々の特殊事例に応じた結合演算への適用を検討する必要がある.巨大データ集合から意味のある情報空間を作成する問題そのものは普遍的な課題であり,既存の先行研究が扱っている事例,たとえば,類似度による関係性抽出や距離結合を通してアクセスログやコンテンツデータ集合からの密な関係を計算したいという要求は本質的である.これら先行研究に応じたデータや事例を対象に,HSJ+BRの方針に応じた効率化方式を実現し,グラフ構造などに相当するような情報空間の作成を行うことを基本方針とする. 具体的には,個々の結合制約に応じたデータの偏り度や通信コストを考慮することと,導出される情報空間の有用さを示すこと,この2つを中心にして研究を進める. そのため,今後は,補助学生の交代に伴って,map/reduce小規模クラスタ上の開発環境を増やすこと,および,H24年度使用のクラスタのノード追加を行って,結合制約に応じたHSJ+BRの改良を進める.
|
Expenditure Plans for the Next FY Research Funding |
該当なし
|
Research Products
(2 results)