• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

An Implementation of Scalable and High Performance Multidimensional Data Store

Research Project

Project/Area Number 18H03242
Research InstitutionTokyo Institute of Technology

Principal Investigator

宮崎 純  東京工業大学, 情報理工学院, 教授 (40293394)

Co-Investigator(Kenkyū-buntansha) 波多野 賢治  同志社大学, 文化情報学部, 教授 (80314532)
中村 匡秀  神戸大学, システム情報学研究科, 准教授 (30324859)
Project Period (FY) 2018-04-01 – 2022-03-31
Keywords多次元データ基盤 / クラウドストレージ / 関係データベース / グラフデータベース / ミドルウェア
Outline of Annual Research Achievements

本研究は、大規模多次元データの容易な維持管理ならびに利用が可能なシステムの実現を目的とする。関係データベース(RDB)とクラウドストレージ(NoSQL)の個々の実装に依存せずに各々の利点どうしを相補的に活用するために、個々のRDBやNoSQLを抽象化してミドルウェアで協調動作させ、スケーラブルな多次元データ基盤を実現する。これにより、大規模かつ多種多様、例えばグラフを含む多次元データに対しても、複雑な問い合わせ処理を可能にする。
本年度は、RDBとHBaseの一般的なデータ操作APIを利用した多次元データストアのプロトタイプの初期評価を行った。13台のPCクラスタを利用して1億件のデータベースを利用した評価実験から、任意の次元での範囲クエリならびに集約演算が関係データベースのみあるいはクラウドストレージのみのデータストアよりも十分に高いスループットで実行できることを明らかにした。特にデータの読み書きが混在する場合において、高い性能を示すことが判明した。このプロトタイプに対してデータ要約手法を組込み、さらなる集約演算の高効率化を目指した。そのために多次元ヒストグラムとカーネル密度推定の二つを併用し、計算精度ならびにスループットの向上を試みた。一般に、前者は計算スループットが高いが精度が低く、後者は逆の性質を持ち、互いにトレードオフの関係にある。範囲クエリと格納データの各パーティションとの重複部分の計算精度を調査し、重複部分の体積が小さいときに軽量な多次元ヒストグラムの精度が高いことが判明した。この性質を利用して、気象センサーデータと交通データをそれぞれ用いて集約演算を評価したところ、両者を重複部分の体積に応じて動的に切替えることで、計算精度とスループットの向上が同時に実現できることを明らかにした。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

本研究は、単一のシステムの内部に手を加えてスケーラブルにする方法とは異なり、ソフトウェア自体のメンテナンスのしやすさに利点がある。その半面、複数のシステムの利点・欠点の解析、ならびにAPIの抽象化に難しさがある。特に関係データベースはSQLという共通のデータ操作言語があるため問題とならないが、クラウドストレージは多様なインタフェースを持つ。
本年度は、関係データベースと表形式のクラウドストレージの統合と、データ要約を導入した問い合わせ処理の高性能化の研究を中心に良い成果が得られた。その点でこの研究項目については十分な達成度、完成度であると言え、今後も継続して研究を進めていく。
一方、グラフデータベースと関係データベースの統合も試みたが、多様なアプリケーションを考慮した際にグラフデータベースのデータ操作インタフェースの一般化が難しいことが判明した。この点において、本研究項目の実施計画よりも若干遅れている。
さらに、多様なデータを扱うためのメタデータやインデクス構造の維持管理方法の検討についても、これらのデータの格納方法について一般化が難しい。関係データベースの一つであるPostgreSQLであれば新しいインデクス構造をユーザが自由に定義できるが、その他の関係データベースでは困難である。そのため、新たなメタデータならびにインデクス構造の格納方法と処理方法の一般化の再検討が必要となっており、この研究項目についても方向性を見直す必要がある。

Strategy for Future Research Activity

今後は、メタデータとインデクス構造の格納方法と処理方法、ならびにグラフデータベースと関係データベースの統合方法を中心に研究を行う予定である。
特に、前者のメタデータとインデクス構造については、データの一貫性を緩めて、関係データベースや表形式クラウドストレージが持つB-treeを組み合わせて特別なインデクス構造を実現する方法について検討を行う。もしくはインデクス構造をバイナリ形式としてストレージに格納し、ミドルウェア内で展開し処理する方法も考えられるが、その一方でインデクス構造の更新方法を検討する必要がある。
また、後者のグラフデータベースと関係データベースの統合によりグラフ構造を持つ多次元データの問い合わせ処理については、グラフデータベースの抽象化だけに留まらない。グラフデータベースの問い合わせ処理性能は、問い合わせのカテゴリに応じて著しく変化するケースがあり、グラフを関係データベースを利用して表形式に写像してグラフ問い合わせを処理する方が良いケースもある。言い換えれば、グラフ処理アプリケーションでも、その問い合わせパターンや傾向によりグラフデータベース中のグラフデータを関係データベースに形式を変換して移動させたりすることで処理性能を改善できる可能性がある。さらにグラフデータベースそのものの実装方式を見直し、動的に内部データ構造を変化させて多様な問い合わせに対応可能にすることも考えられる。今後これらの諸問題について解決方法を検討していき、研究の推進につなげる予定である。

  • Research Products

    (16 results)

All 2019 2018

All Journal Article (7 results) (of which Peer Reviewed: 7 results) Presentation (9 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Efficient Aggregation Query Processing for Large-Scale Multidimensional Data by Combining RDB and KVS2018

    • Author(s)
      Watari Yuya、Keyaki Atsushi、Miyazaki Jun、Nakamura Masahide
    • Journal Title

      Proceedings of Database and Expert Systems Applications. DEXA 2018

      Volume: ー Pages: 134~149

    • DOI

      https://doi.org/10.1007/978-3-319-98809-2_9

    • Peer Reviewed
  • [Journal Article] GPU上のMapReduceを利用した大規模データ処理の最適化2018

    • Author(s)
      柳本晟熈, 欅 惇志, 宮崎 純
    • Journal Title

      情報処理学会論文誌データベース(TOD)

      Volume: 11 Pages: 23~34

    • Peer Reviewed
  • [Journal Article] A Contextual Random Walk Model for Automated Playlist Generation2018

    • Author(s)
      Ueda Seiji、Keyaki Atsushi、Miyazaki Jun
    • Journal Title

      Proceedings of 2018 IEEE/WIC/ACM International Conference on Web Intelligence

      Volume: ー Pages: 367~374

    • DOI

      10.1109/WI.2018.00-66

    • Peer Reviewed
  • [Journal Article] Combining Two Types of Database System for Managing Property Graph Data2018

    • Author(s)
      Kusu Kazuma、Hatano Kenji
    • Journal Title

      Proceedings of 2018 IEEE International Conference on Big Data

      Volume: ー Pages: 5349~5351

    • DOI

      10.1109/BigData.2018.8622050

    • Peer Reviewed
  • [Journal Article] Using Non-Intrusive Environmental Sensing for ADLS Recognition in One-Person Household2018

    • Author(s)
      Niu Long、Saiki Sachio、Nakamura Masahide
    • Journal Title

      International Journal of Software Innovation

      Volume: 6 Pages: 16~29

    • DOI

      10.4018/IJSI.2018100102

    • Peer Reviewed
  • [Journal Article] Log4Care: Unified Event Logging Service for Personalized Care2018

    • Author(s)
      Haruhisa Maeda, Sachio Saiki, Masahide Nakamura, Kiyoshi Yasuda
    • Journal Title

      Proceedings of Digital Human Modeling 2018 (DHM 2018)

      Volume: ー Pages: 466~477

    • Peer Reviewed
  • [Journal Article] A Study of Practical Education Program on AI, Big Data, and Cloud Computing through Development of Automatic Ordering System2018

    • Author(s)
      Saiki Sachio、Fukuyasu Naoki、Ichikawa Kohei、Kanda Tetsuya、Nakamura Masahide、Matsumoto Shinsuke、Yoshida Shinichi、Kusumoto Shinji
    • Journal Title

      Proceedings of 2018 IEEE/ACIS 3rd International Conference on Big Data, Cloud Computing, Data Science & Engineering

      Volume: ー Pages: 31~36

    • DOI

      10.1109/BCD2018.2018.00013

    • Peer Reviewed
  • [Presentation] グラフモデルを用いた音楽推薦におけるグラフデータベースと関係データベースを併用した計算手法について2019

    • Author(s)
      山口 航, 宮崎 純, 欅 惇志
    • Organizer
      DEIM Forum 2019
  • [Presentation] 環境センサから推定される時系列行動尤度ベクトルによる行動シーケンスの推定2019

    • Author(s)
      西 高史, 欅惇志, 宮崎純
    • Organizer
      DEIM Forum 2019
  • [Presentation] 属性を用いた問合せの効率化に向けたグラフデータベースシステムの併用2019

    • Author(s)
      楠 和馬,波多野 賢治
    • Organizer
      DEIM Forum 2019
  • [Presentation] NoSQLによる集約演算のデータ要約手法を用いた結果推定の高精度化2018

    • Author(s)
      張 涵, 欅 惇志, 宮崎 純, 中村 匡秀
    • Organizer
      情報処理学会データベースシステム研究会
  • [Presentation] GPU上のMapReduceによる大規模データ処理の最適化2018

    • Author(s)
      柳本晟熈, 欅 惇志, 宮崎 純
    • Organizer
      WebDB Forum 2018
  • [Presentation] オープンデータを活用した街頭犯罪に寄与する要因の分析~気象データを例として~2018

    • Author(s)
      香川拓大,佐伯幸郎,中村匡秀
    • Organizer
      電子情報通信学会データ工学研究会
  • [Presentation] ミクロな人口統計データの活用を容易化するWeb-APIの開発2018

    • Author(s)
      香川拓大,佐伯幸郎,中村匡秀
    • Organizer
      電子情報通信学会サービスコンピューティング研究会
  • [Presentation] Ambulance Simulator2018

    • Author(s)
      Takuhiro Kagawa,Naoya Yabuki,Sachio Saiki,Masahide Nakamura
    • Organizer
      World Data Viz Challenge 2018 (WDVC2018)
    • Int'l Joint Research
  • [Presentation] KOBE LOVES SPORTS2018

    • Author(s)
      Haruhisa Maeda,Daiki Takatsuki,Sachio Saiki,Masahide Nakamura
    • Organizer
      World Data Viz Challenge 2018 (WDVC2018)
    • Int'l Joint Research

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi