研究実績の概要 |
本研究の目的は,mapreduceシステム上で大規模データ集合から有用な情報空間を生成する演算を確立し,当該情報空間の維持・利用モデルを示すことである.具体的には,範囲結合や類似結合に代表されるデータ間の多対多関係を求める集合演算を対象にして,データ規模, mapreduceの計算ノード数,類似度などの制約,データ偏り,などの要因に対処して安定して効率的計算のできるmapreduce向け実行戦略の提案を主軸にした. 平成26年度からは,類似結合の代表的計算手法であるprefix-filtering法に特有なレコードコピーが引き起こすshuffleコストを軽減するため,「2段階ハッシュ分割戦略」を提案してきた.平成27年度は,編集距離結合をprefix-filteringで行う既存手法に当該戦略を適用し,「Q1/Q2分割法」と呼ぶ算法を実装・評価した.Q1/Q2分割法は,map側でのハッシュ分割時に,レコードコピー量を総reducer数より少なくしたQ1ハッシュ分割を行ってshuffleデータ通信量とreducer間でのレコード照合重複を減らし,各reduce内で再度Q2ハッシュ分割を行って照合効率を上げる戦略である.結果,5ノード・map/reduceとも10タスクの環境の編集距離結合計算において,shuffle量を元の手法の直接適用時の0.5%にまで削減し,照合負荷自体もノード間総当たり処理より削減できた. 以上の結果から,大規模データの類似結合をノード数の多いmapreduceモデルで行う時には2段階ハッシュ分割戦略が有効であり,多様な類似結合計算法の効率化に有効な選択肢となりうることが分かった.また,最後に,類似結合結果の利用法として,分析用スキーマ下で新規データ追加に応じてクラスタ抽出を行うツールを試作し,有用な情報理解ができることを確認した.
|