研究課題/領域番号 |
18H03242
|
研究機関 | 東京工業大学 |
研究代表者 |
宮崎 純 東京工業大学, 情報理工学院, 教授 (40293394)
|
研究分担者 |
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
中村 匡秀 神戸大学, システム情報学研究科, 准教授 (30324859)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 多次元データ基盤 / クラウドストレージ / 関係データベース / グラフデータベース / ミドルウェア |
研究実績の概要 |
本研究は、大規模多次元データの容易な維持管理ならびに利用が可能なシステムの実現を目的とする。関係データベース(RDB)とクラウドストレージ(NoSQL)の個々の実装に依存せずに各々の利点どうしを相補的に活用するために、個々のRDBやNoSQLを抽象化してミドルウェアで協調動作させ、スケーラブルな多次元データ基盤を実現する。これにより、大規模かつ多種多様、例えばグラフを含む多次元データに対しても、複雑な問い合わせ処理を可能にする。 本年度は、RDBとHBaseの一般的なデータ操作APIを利用した多次元データストアのプロトタイプの初期評価を行った。13台のPCクラスタを利用して1億件のデータベースを利用した評価実験から、任意の次元での範囲クエリならびに集約演算が関係データベースのみあるいはクラウドストレージのみのデータストアよりも十分に高いスループットで実行できることを明らかにした。特にデータの読み書きが混在する場合において、高い性能を示すことが判明した。このプロトタイプに対してデータ要約手法を組込み、さらなる集約演算の高効率化を目指した。そのために多次元ヒストグラムとカーネル密度推定の二つを併用し、計算精度ならびにスループットの向上を試みた。一般に、前者は計算スループットが高いが精度が低く、後者は逆の性質を持ち、互いにトレードオフの関係にある。範囲クエリと格納データの各パーティションとの重複部分の計算精度を調査し、重複部分の体積が小さいときに軽量な多次元ヒストグラムの精度が高いことが判明した。この性質を利用して、気象センサーデータと交通データをそれぞれ用いて集約演算を評価したところ、両者を重複部分の体積に応じて動的に切替えることで、計算精度とスループットの向上が同時に実現できることを明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究は、単一のシステムの内部に手を加えてスケーラブルにする方法とは異なり、ソフトウェア自体のメンテナンスのしやすさに利点がある。その半面、複数のシステムの利点・欠点の解析、ならびにAPIの抽象化に難しさがある。特に関係データベースはSQLという共通のデータ操作言語があるため問題とならないが、クラウドストレージは多様なインタフェースを持つ。 本年度は、関係データベースと表形式のクラウドストレージの統合と、データ要約を導入した問い合わせ処理の高性能化の研究を中心に良い成果が得られた。その点でこの研究項目については十分な達成度、完成度であると言え、今後も継続して研究を進めていく。 一方、グラフデータベースと関係データベースの統合も試みたが、多様なアプリケーションを考慮した際にグラフデータベースのデータ操作インタフェースの一般化が難しいことが判明した。この点において、本研究項目の実施計画よりも若干遅れている。 さらに、多様なデータを扱うためのメタデータやインデクス構造の維持管理方法の検討についても、これらのデータの格納方法について一般化が難しい。関係データベースの一つであるPostgreSQLであれば新しいインデクス構造をユーザが自由に定義できるが、その他の関係データベースでは困難である。そのため、新たなメタデータならびにインデクス構造の格納方法と処理方法の一般化の再検討が必要となっており、この研究項目についても方向性を見直す必要がある。
|
今後の研究の推進方策 |
今後は、メタデータとインデクス構造の格納方法と処理方法、ならびにグラフデータベースと関係データベースの統合方法を中心に研究を行う予定である。 特に、前者のメタデータとインデクス構造については、データの一貫性を緩めて、関係データベースや表形式クラウドストレージが持つB-treeを組み合わせて特別なインデクス構造を実現する方法について検討を行う。もしくはインデクス構造をバイナリ形式としてストレージに格納し、ミドルウェア内で展開し処理する方法も考えられるが、その一方でインデクス構造の更新方法を検討する必要がある。 また、後者のグラフデータベースと関係データベースの統合によりグラフ構造を持つ多次元データの問い合わせ処理については、グラフデータベースの抽象化だけに留まらない。グラフデータベースの問い合わせ処理性能は、問い合わせのカテゴリに応じて著しく変化するケースがあり、グラフを関係データベースを利用して表形式に写像してグラフ問い合わせを処理する方が良いケースもある。言い換えれば、グラフ処理アプリケーションでも、その問い合わせパターンや傾向によりグラフデータベース中のグラフデータを関係データベースに形式を変換して移動させたりすることで処理性能を改善できる可能性がある。さらにグラフデータベースそのものの実装方式を見直し、動的に内部データ構造を変化させて多様な問い合わせに対応可能にすることも考えられる。今後これらの諸問題について解決方法を検討していき、研究の推進につなげる予定である。
|