2012 年度実施状況報告書

大規模データ処理基盤におけるデータ空間の生成演算と更新方式に関する研究

研究課題

研究課題/領域番号	24500109
研究種目	基盤研究(C)
研究機関	電気通信大学
研究代表者	大森匡電気通信大学, 大学院情報システム学研究科, 教授 (30233274)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	巨大データ処理 / 結合演算 / map/reduce / 類似結合 / ハッシュ結合
研究概要	平成24年度はmap/reduceシステム上で巨大データ集合ＲとＳの間の多対多関係に基づいた等結合演算を対象に，データ偏りに伴う負荷分散・高速実行アルゴリズムを提案した．提案内容は，データ集合ＲとＳの間に成立する多：多関係を抽出するための等結合であり，一般に find (r,s) from R x S where r.A = s.A and f(r,s) と書ける場合を対象にした．f(r,s)はデータrとsの類似度や一致度を与える外部関数であり，r.A, s.Aは照合範囲を絞るための signatureである．このタイプの結合演算(n:m結合）は，類似度結合やユーザ定義関数を使った結合，距離結合や範囲結合で広く使われる基本的なデータ処理演算であり，map/reduce上での高速化が最近注目されている．本研究では，n:m結合においてデータ偏りとＣＰＵ計算偏りに対抗することが本質的と考え，その解決手段として，Hybrid Skew Join with Bucket Regrouping(HSJ+BR)を考案した． HSJ+BRは，ハイブリッドハッシュ結合に基づいた2回のmap/reduceジョブで構成される．すなわち，(1) build処理としてＲを主記憶サイズより小さな細粒度バケットに分割するmap/reduceジョブを実行し，(2) その度数分布情報をコントローラが集めた後，バケットの再グループ化によるパーティション構成案とreducer数を増やすことによる処理の分散化プランを決定して，(3)　当該プランに基づいてprobe処理のmap/reduceジョブを実行する．実質5ノードのHadoopクラスタで1000万件ｘ1000万件，偏り最大0.5%の等結合においてノードあたりの最大・最小時間比率を100:1から４：３へと向上でき，全体処理時間も2.5倍高速化できた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初計画にあげた課題のうち，巨大非定型データから意味のある情報を表すデータ空間作成演算として，平成24年度は，多：多結合演算で制約の緩い等結合と類似度判定などの外部関数を含む場合を取り上げた．効率的な実行アルゴリズムとして，データ偏りへの対応が問題の本質と考え，Grace-Hash Joinで伝統的に使われる2段階ハッシュ分割に相当する手法を導入し，サンプリングなしの非定型データ変換の状況で利用可能であるなど，一定の成果を上げた．一方で，望ましい情報空間を生成するためには類似結合や距離結合など個々の制約条件に応じたHSJ+BRの方針に基づく処理アルゴリズムの特殊化が必要であり，この点の追及が問題として残った．以上の理由により，おおむね順調な進展と見なす．
今後の研究の推進方策	初年度のHSJ+BRの戦略を発展させて，類似度や距離制約，範囲結合などの個々の特殊事例に応じた結合演算への適用を検討する必要がある．巨大データ集合から意味のある情報空間を作成する問題そのものは普遍的な課題であり，既存の先行研究が扱っている事例，たとえば，類似度による関係性抽出や距離結合を通してアクセスログやコンテンツデータ集合からの密な関係を計算したいという要求は本質的である．これら先行研究に応じたデータや事例を対象に，ＨＳＪ＋ＢＲの方針に応じた効率化方式を実現し，グラフ構造などに相当するような情報空間の作成を行うことを基本方針とする．具体的には，個々の結合制約に応じたデータの偏り度や通信コストを考慮することと，導出される情報空間の有用さを示すこと，この２つを中心にして研究を進める．そのため，今後は，補助学生の交代に伴って，map/reduce小規模クラスタ上の開発環境を増やすこと，および，Ｈ２４年度使用のクラスタのノード追加を行って，結合制約に応じたHSJ+BRの改良を進める．
次年度の研究費の使用計画	該当なし

研究成果
(2件)

すべて学会発表 (2件)

[学会発表] Map/Reduceにおけるバケット再グループ化を用いたハイブリッドハッシュ結合アルゴリズム2013
- 著者名/発表者名
  廣瀬繁雄, 大森匡，新谷隆彦
- 学会等名
  DEIM(データ工学と情報管理フォーラム) 2013，　Ｆ２－４　(7ページ）
- 発表場所
  郡山
- 年月日
  20130303-20130305
[学会発表] 空間データにおける2^n分割木を用いたm-最近傍キーワード検索2013
- 著者名/発表者名
  邱原，大森匡，新谷隆彦
- 学会等名
  DEIM 2013, A9-5　(7ページ）
- 発表場所
  郡山
- 年月日
  20130303-20130305