2014 Fiscal Year Research-status Report
大規模データ処理基盤におけるデータ空間の生成演算と更新方式に関する研究
Project/Area Number |
24500109
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
大森 匡 電気通信大学, その他の研究科, 教授 (30233274)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | mapreduce / 類似結合 / ハッシュ結合 / 大規模データ処理 |
Outline of Annual Research Achievements |
本研究の目的は,非定型で大規模なデータ群から有用な情報空間を生成するデータ集合演算を対象に,mapreduce上の処理技法を確立し,計算結果である情報空間の維持・利用方法を示すことである.具体的には,範囲結合や類似結合に代表される多対多関係の結合演算を対象にする.これらの演算は,最終的には制約の緩い等結合処理に直して実行できる.そこで本研究では,演算の処理技法として,従前の処理技法をmapreduceモデルに適用したときに問題となるデータの偏りやレコードコピー量の増大を解決する機構を提案してきた. 平成26年度には,類似結合の1つである編集距離結合を扱い,これを等結合に変換して実行する既存技法landmark joinについて効率化方式を提案した.具体的には,類似結合を等結合に変換する際の戦略であるprefix-filtering技法が引き起こすレコードコピー量増大に対処して,map/shuffle/reduce間のコストバランスを制御する必要があった.そのため,本研究では,map/shuffle側で行うハッシュ分割とreduce側のハッシュ結合の2段階で異なるハッシュ分割を行ってmap/shuffle/reduceの総コストを削減する方法として,label-prefix方式とQ1・Q2ハッシュ分割法の2つを提案した.label-prefix方式を試作してlandmark joinに適用した結果,5ノードクラスタでmap, reduce各10タスクの環境でshuffleデータ量を40%まで削減した効率化ができた.(Q1・Q2分割法の試作評価は次年度冒頭に行うこととした.)
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究では,データに存在する多対多関係を取り出す論理的な演算として,制約の緩い等結合や類似結合を扱うこととし,計算アルゴリズムとしてmapreduce基盤上に適した基本構成要素を検討・提案してきた.現在までに,制約の緩い等結合を直接使った多対多関係計算においては,データ偏りが問題になるため,その解決のためにバケット細分割と再グループ化を行うハイブリッドハッシュ結合HSJ+BRを提案した.今年度には,編集距離結合を使った多対多関係計算を対象にして,等結合に変換するときに使われるprefix-filtering技法に特有なレコードコピー量が引き起こす問題を解決しようとした.そして,shuffle/reduce間の計算コストバランスを制御する2段階ハッシュ技法を提案し,既存の計算技法であるlandmark joinに適用して高速化を実現した. ここまでに提案した技法はすべて,既存の1ノード向け類似結合技法をmapreduceモデルに適用するときに生じるデータ処理効率化を制御する戦略として働く.Q1・Q2分割法の試作評価,他の類似結合の場合の取り扱い,得られるデータ空間の有用さの検討,などを調べて当初目標の立場から総括する必要があるため,計画を1年延長した.そのため,進捗は「やや遅れている」とした.
|
Strategy for Future Research Activity |
まず,編集距離結合向けに用意した2段階ハッシュ分割技法のうちQ1・Q2分割法の試作評価を行う.reduce側の処理アルゴリズムの交換も検討する.次に,集合類似度の場合への同戦略の適用によって得られる計算技法を考え,試作を行う.これによって,多対多関係計算のためにmapreduce上で用意すべき基本処理機能が明らかになる.編集距離結合では遺伝子データを,集合類似結合では文献データを用いているため,得られる情報の有用性を調べることで情報空間の維持と利用方法についても見通しを得ることができる.
|
Causes of Carryover |
平成26年度には,編集距離のような複雑な類似関数を扱うときの多対多関係計算問題においては,既存技法ではmap/shuffle処理負荷が高すぎ,当初計画にない問題となった.また,初年度に提案したHSJ+BRでは解決できない要因でもあった.そのため,当初計画を修正し,同負荷を削減する技法として,mapreduce向け編集距離結合の既存技法であるlandmark joinを元にした2段階ハッシュ分割を使った計算技法として,label prefix方式とQ1・Q2分割法を提案し,label prefix方式の試作評価を行った.平成27年度にはQ1・Q2分割法の評価とまとめ,成果発表を行うことにした.また,他の類似結合への適用と生成できる情報空間の有用さ・利用形態の評価,など,当初目標に沿ったまとめを行う必要がある.そのため,計画を1年延長した.
|
Expenditure Plan for Carryover Budget |
上記の経過のため,平成27年度に提案評価を発表することにした.夏季の口頭発表と論文発表を行うこと,評価まとめにおいて計算ノードの部分交換を行う可能性があること,を考慮して,未使用額はその経費に充てることとする.
|
Remarks |
補助事業期間延長承認 平成27年3月20日
|
Research Products
(1 results)