2021 Fiscal Year Annual Research Report
An Implementation of Scalable and High Performance Multidimensional Data Store
Project/Area Number |
18H03242
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
宮崎 純 東京工業大学, 情報理工学院, 教授 (40293394)
|
Co-Investigator(Kenkyū-buntansha) |
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
中村 匡秀 神戸大学, 数理データ・サイエンスセンター, 教授 (30324859)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 多次元データ / グラフ処理 / 知識グラフ / NoSQL |
Outline of Annual Research Achievements |
本研究は、大規模多次元データの容易な維持管理ならびに利用が可能なシステムの実現を目的とする。関係データベース(RDB)とクラウドストレージ(NoSQL)の個々の実装に依存せずに各々の利点どうしを相補的に活用するために、個々のRDBやNoSQLを抽象化してミドルウェアで協調動作させ、スケーラブルな多次元データ基盤を実現する。これにより、大規模かつ多種多様、例えばグラフを含む多次元データに対しても、複雑なデータ処理を可能にする。 次の4項目について研究を実施した。(1)NoSQLにおける集約演算の近似計算の効率化、(2)多次元データに対する近似Top-k問い合わせ処理、(3) 多次元データ基盤の応用、(4)異なる性質のグラフ処理を可能とするデータベースアーキテクチャ。 (1)に関しては、多峰性の属性値分布を持つデータに対して、属性値のビットスライス化に加えて、特定領域での分散の大小に応じて圧縮率を変えたパッチベースエンコーディングを適用する方法を提案し、混合分布のデータであっても正確な計算結果へ早い収束を示すことを明らかにした。(2)については、未知スコア関数を前提とした多次元データのTop-k問い合わせについて、スコア関数の極大領域の推定を行い、スコア値の高い極大領域近傍のデータを局所性鋭敏型ハッシュを利用して効率よく取得し、全データのスコア値を計算せずに近似的に上位k件のデータを取得する手法を明らかにした。(3)に関しては、知識グラフやオントロジのようなグラフ形式の知識ベースを利用して、より精度の高いデータ推薦手法や知識ベースの経路探索や各エンティティ周辺の情報を利用して推薦理由の生成を効率よく行う手法を明らかにした。(4)については、大域的なグラフ処理やパス探索処理の双方を効率よく行える新しいアーキテクチャを提案し、マルチスレッド化により高速化を行えることが判明した。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|