2018 年度実績報告書

スケーラブルな高性能多次元データ基盤の実現

研究課題

研究課題/領域番号	18H03242
研究機関	東京工業大学
研究代表者	宮崎純東京工業大学, 情報理工学院, 教授 (40293394)
研究分担者	波多野賢治同志社大学, 文化情報学部, 教授 (80314532) 中村匡秀神戸大学, システム情報学研究科, 准教授 (30324859)
研究期間 (年度)	2018-04-01 – 2022-03-31
キーワード	多次元データ基盤 / クラウドストレージ / 関係データベース / グラフデータベース / ミドルウェア
研究実績の概要	本研究は、大規模多次元データの容易な維持管理ならびに利用が可能なシステムの実現を目的とする。関係データベース(RDB)とクラウドストレージ(NoSQL)の個々の実装に依存せずに各々の利点どうしを相補的に活用するために、個々のRDBやNoSQLを抽象化してミドルウェアで協調動作させ、スケーラブルな多次元データ基盤を実現する。これにより、大規模かつ多種多様、例えばグラフを含む多次元データに対しても、複雑な問い合わせ処理を可能にする。本年度は、RDBとHBaseの一般的なデータ操作APIを利用した多次元データストアのプロトタイプの初期評価を行った。13台のPCクラスタを利用して1億件のデータベースを利用した評価実験から、任意の次元での範囲クエリならびに集約演算が関係データベースのみあるいはクラウドストレージのみのデータストアよりも十分に高いスループットで実行できることを明らかにした。特にデータの読み書きが混在する場合において、高い性能を示すことが判明した。このプロトタイプに対してデータ要約手法を組込み、さらなる集約演算の高効率化を目指した。そのために多次元ヒストグラムとカーネル密度推定の二つを併用し、計算精度ならびにスループットの向上を試みた。一般に、前者は計算スループットが高いが精度が低く、後者は逆の性質を持ち、互いにトレードオフの関係にある。範囲クエリと格納データの各パーティションとの重複部分の計算精度を調査し、重複部分の体積が小さいときに軽量な多次元ヒストグラムの精度が高いことが判明した。この性質を利用して、気象センサーデータと交通データをそれぞれ用いて集約演算を評価したところ、両者を重複部分の体積に応じて動的に切替えることで、計算精度とスループットの向上が同時に実現できることを明らかにした。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本研究は、単一のシステムの内部に手を加えてスケーラブルにする方法とは異なり、ソフトウェア自体のメンテナンスのしやすさに利点がある。その半面、複数のシステムの利点・欠点の解析、ならびにAPIの抽象化に難しさがある。特に関係データベースはSQLという共通のデータ操作言語があるため問題とならないが、クラウドストレージは多様なインタフェースを持つ。本年度は、関係データベースと表形式のクラウドストレージの統合と、データ要約を導入した問い合わせ処理の高性能化の研究を中心に良い成果が得られた。その点でこの研究項目については十分な達成度、完成度であると言え、今後も継続して研究を進めていく。一方、グラフデータベースと関係データベースの統合も試みたが、多様なアプリケーションを考慮した際にグラフデータベースのデータ操作インタフェースの一般化が難しいことが判明した。この点において、本研究項目の実施計画よりも若干遅れている。さらに、多様なデータを扱うためのメタデータやインデクス構造の維持管理方法の検討についても、これらのデータの格納方法について一般化が難しい。関係データベースの一つであるPostgreSQLであれば新しいインデクス構造をユーザが自由に定義できるが、その他の関係データベースでは困難である。そのため、新たなメタデータならびにインデクス構造の格納方法と処理方法の一般化の再検討が必要となっており、この研究項目についても方向性を見直す必要がある。
今後の研究の推進方策	今後は、メタデータとインデクス構造の格納方法と処理方法、ならびにグラフデータベースと関係データベースの統合方法を中心に研究を行う予定である。特に、前者のメタデータとインデクス構造については、データの一貫性を緩めて、関係データベースや表形式クラウドストレージが持つB-treeを組み合わせて特別なインデクス構造を実現する方法について検討を行う。もしくはインデクス構造をバイナリ形式としてストレージに格納し、ミドルウェア内で展開し処理する方法も考えられるが、その一方でインデクス構造の更新方法を検討する必要がある。また、後者のグラフデータベースと関係データベースの統合によりグラフ構造を持つ多次元データの問い合わせ処理については、グラフデータベースの抽象化だけに留まらない。グラフデータベースの問い合わせ処理性能は、問い合わせのカテゴリに応じて著しく変化するケースがあり、グラフを関係データベースを利用して表形式に写像してグラフ問い合わせを処理する方が良いケースもある。言い換えれば、グラフ処理アプリケーションでも、その問い合わせパターンや傾向によりグラフデータベース中のグラフデータを関係データベースに形式を変換して移動させたりすることで処理性能を改善できる可能性がある。さらにグラフデータベースそのものの実装方式を見直し、動的に内部データ構造を変化させて多様な問い合わせに対応可能にすることも考えられる。今後これらの諸問題について解決方法を検討していき、研究の推進につなげる予定である。

研究成果
(16件)

すべて 2019 2018

すべて雑誌論文 (7件) (うち査読あり 7件) 学会発表 (9件) (うち国際学会 2件)

[雑誌論文] Efficient Aggregation Query Processing for Large-Scale Multidimensional Data by Combining RDB and KVS2018
- 著者名/発表者名
  Watari Yuya、Keyaki Atsushi、Miyazaki Jun、Nakamura Masahide
- 雑誌名
  
  Proceedings of Database and Expert Systems Applications. DEXA 2018
  
  巻: ーページ: 134～149
- DOI
  https://doi.org/10.1007/978-3-319-98809-2_9
- 査読あり
[雑誌論文] GPU上のMapReduceを利用した大規模データ処理の最適化2018
- 著者名/発表者名
  柳本晟熈, 欅惇志, 宮崎純
- 雑誌名
  
  情報処理学会論文誌データベース（TOD）
  
  巻: 11 ページ: 23～34
- 査読あり
[雑誌論文] A Contextual Random Walk Model for Automated Playlist Generation2018
- 著者名/発表者名
  Ueda Seiji、Keyaki Atsushi、Miyazaki Jun
- 雑誌名
  
  Proceedings of 2018 IEEE/WIC/ACM International Conference on Web Intelligence
  
  巻: ーページ: 367～374
- DOI
  10.1109/WI.2018.00-66
- 査読あり
[雑誌論文] Combining Two Types of Database System for Managing Property Graph Data2018
- 著者名/発表者名
  Kusu Kazuma、Hatano Kenji
- 雑誌名
  
  Proceedings of 2018 IEEE International Conference on Big Data
  
  巻: ーページ: 5349～5351
- DOI
  10.1109/BigData.2018.8622050
- 査読あり
[雑誌論文] Using Non-Intrusive Environmental Sensing for ADLS Recognition in One-Person Household2018
- 著者名/発表者名
  Niu Long、Saiki Sachio、Nakamura Masahide
- 雑誌名
  
  International Journal of Software Innovation
  
  巻: 6 ページ: 16～29
- DOI
  10.4018/IJSI.2018100102
- 査読あり
[雑誌論文] Log4Care: Unified Event Logging Service for Personalized Care2018
- 著者名/発表者名
  Haruhisa Maeda, Sachio Saiki, Masahide Nakamura, Kiyoshi Yasuda
- 雑誌名
  
  Proceedings of Digital Human Modeling 2018 (DHM 2018)
  
  巻: ーページ: 466～477
- 査読あり
[雑誌論文] A Study of Practical Education Program on AI, Big Data, and Cloud Computing through Development of Automatic Ordering System2018
- 著者名/発表者名
  Saiki Sachio、Fukuyasu Naoki、Ichikawa Kohei、Kanda Tetsuya、Nakamura Masahide、Matsumoto Shinsuke、Yoshida Shinichi、Kusumoto Shinji
- 雑誌名
  
  Proceedings of 2018 IEEE/ACIS 3rd International Conference on Big Data, Cloud Computing, Data Science & Engineering
  
  巻: ーページ: 31～36
- DOI
  10.1109/BCD2018.2018.00013
- 査読あり
[学会発表] グラフモデルを用いた音楽推薦におけるグラフデータベースと関係データベースを併用した計算手法について2019
- 著者名/発表者名
  山口航, 宮崎純, 欅惇志
- 学会等名
  DEIM Forum 2019
[学会発表] 環境センサから推定される時系列行動尤度ベクトルによる行動シーケンスの推定2019
- 著者名/発表者名
  西高史, 欅惇志, 宮崎純
- 学会等名
  DEIM Forum 2019
[学会発表] 属性を用いた問合せの効率化に向けたグラフデータベースシステムの併用2019
- 著者名/発表者名
  楠和馬，波多野賢治
- 学会等名
  DEIM Forum 2019
[学会発表] NoSQLによる集約演算のデータ要約手法を用いた結果推定の高精度化2018
- 著者名/発表者名
  張涵, 欅惇志, 宮崎純, 中村匡秀
- 学会等名
  情報処理学会データベースシステム研究会
[学会発表] GPU上のMapReduceによる大規模データ処理の最適化2018
- 著者名/発表者名
  柳本晟熈, 欅惇志, 宮崎純
- 学会等名
  WebDB Forum 2018
[学会発表] オープンデータを活用した街頭犯罪に寄与する要因の分析～気象データを例として～2018
- 著者名/発表者名
  香川拓大,佐伯幸郎,中村匡秀
- 学会等名
  電子情報通信学会データ工学研究会
[学会発表] ミクロな人口統計データの活用を容易化するWeb-APIの開発2018
- 著者名/発表者名
  香川拓大,佐伯幸郎,中村匡秀
- 学会等名
  電子情報通信学会サービスコンピューティング研究会
[学会発表] Ambulance Simulator2018
- 著者名/発表者名
  Takuhiro Kagawa,Naoya Yabuki,Sachio Saiki,Masahide Nakamura
- 学会等名
  World Data Viz Challenge 2018 (WDVC2018)
- 国際学会
[学会発表] KOBE LOVES SPORTS2018
- 著者名/発表者名
  Haruhisa Maeda,Daiki Takatsuki,Sachio Saiki,Masahide Nakamura
- 学会等名
  World Data Viz Challenge 2018 (WDVC2018)
- 国際学会

2018 年度 実績報告書

スケーラブルな高性能多次元データ基盤の実現

研究代表者

宮崎 純 東京工業大学, 情報理工学院, 教授 (40293394)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Efficient Aggregation Query Processing for Large-Scale Multidimensional Data by Combining RDB and KVS2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] GPU上のMapReduceを利用した大規模データ処理の最適化2018

著者名/発表者名

雑誌名

[雑誌論文] A Contextual Random Walk Model for Automated Playlist Generation2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Combining Two Types of Database System for Managing Property Graph Data2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Using Non-Intrusive Environmental Sensing for ADLS Recognition in One-Person Household2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Log4Care: Unified Event Logging Service for Personalized Care2018

著者名/発表者名

雑誌名

[雑誌論文] A Study of Practical Education Program on AI, Big Data, and Cloud Computing through Development of Automatic Ordering System2018

著者名/発表者名

雑誌名

DOI

[学会発表] グラフモデルを用いた音楽推薦におけるグラフデータベースと関係データベースを併用した計算手法について2019

著者名/発表者名

学会等名

[学会発表] 環境センサから推定される時系列行動尤度ベクトルによる行動シーケンスの推定2019

著者名/発表者名

学会等名

[学会発表] 属性を用いた問合せの効率化に向けたグラフデータベースシステムの併用2019

著者名/発表者名

学会等名

[学会発表] NoSQLによる集約演算のデータ要約手法を用いた結果推定の高精度化2018

著者名/発表者名

学会等名

[学会発表] GPU上のMapReduceによる大規模データ処理の最適化2018

著者名/発表者名

学会等名

[学会発表] オープンデータを活用した街頭犯罪に寄与する要因の分析～気象データを例として～2018

著者名/発表者名

学会等名

[学会発表] ミクロな人口統計データの活用を容易化するWeb-APIの開発2018

著者名/発表者名

学会等名

[学会発表] Ambulance Simulator2018

著者名/発表者名

学会等名

[学会発表] KOBE LOVES SPORTS2018

著者名/発表者名

学会等名

2018 年度実績報告書

宮崎純東京工業大学, 情報理工学院, 教授 (40293394)