• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

Efficient Data Staging into The Big Data Analytics Platform

Research Project

Project/Area Number 16K21675
Research InstitutionNational Institute of Advanced Industrial Science and Technology

Principal Investigator

谷村 勇輔  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)

Project Period (FY) 2016-04-01 – 2018-03-31
Keywordsデータストレージ / ビッグデータ解析 / データステージング / 資源管理 / クラウド
Outline of Annual Research Achievements

本研究では,バックエンドの安価で巨大なストレージから高速なディスクを持つビッグデータ解析環境への効率的なデータ・ステージングの実現を目指し,ビッグデータ解析処理層(主計算インフラ)とバックエンド層(主ストレージインフラ)において,解析処理層で用いられるデータ構造をできる限り保持したままデータ・ステージングを行うとともに,主ストレージインフラ側での解析前・解析後処理によるステージングの効率化,同時ステージングにおける性能干渉を防ぐためのスケジューリングに取り組んだ.解析処理層にApache Spark,メモリや高速なディスクで構成する中間層(ステージング層)にAlluxio,容量単価の優れたディスクで構成するバックエンド層にHadoop Distributed File SystemあるいはCeph RADOSを想定し,性能評価や提案手法のプロトタイプ実装を行った.なお,これらの3層は従来,1つの計算ノード群に重ねて用意されるのが一般的であるが,本研究では最終的に上位1層を計算ノード群,下位2層をストレージノード群に用意する設計とした.Sparkのデータ入出力の基本性能評価と高速化,Alluxioを中間層に用いた場合のI/O性能比較,Alluxio内部でのデータ処理機構の実装と主ストレージインフラへのデータ処理のオフロードに関する評価,同時ステージングにおける性能干渉の調査と干渉の軽減策に関する評価などを行い,高速なビッグデータ解析環境の多目的の運用や,従来的にデータ保存管理に優れたストレージシステムとの相補的な利用に不可欠な要素技術を開発した.

  • Research Products

    (2 results)

All 2018 2017

All Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Storage-Side Processing for Spark with Tiered Storage2018

    • Author(s)
      Kaihui Zhang, Yusuke Tanimura, Hidemoto Nakada, Hirotaka Ogawa
    • Organizer
      情報処理学会 第163回ハイパフォーマンスコンピューティング研究会
  • [Presentation] Understanding and Improving Disk-based Intermediate Data Caching in Spark2017

    • Author(s)
      Kaihui Zhang, Yusuke Tanimura, Hidemoto Nakada, Hirotaka Ogawa
    • Organizer
      6th Workshop on Scalable Cloud Data Management in 2017 IEEE International Conference on Big Data
    • Int'l Joint Research

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi