2020 Fiscal Year Annual Research Report
An Implementation of Scalable and High Performance Multidimensional Data Store
Project/Area Number |
18H03242
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
宮崎 純 東京工業大学, 情報理工学院, 教授 (40293394)
|
Co-Investigator(Kenkyū-buntansha) |
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
中村 匡秀 神戸大学, システム情報学研究科, 准教授 (30324859)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 多次元データ / グラフデータ / 分散データベース / 時制グラフデータ / 知識グラフ |
Outline of Annual Research Achievements |
本研究は、大規模多次元データの容易な維持管理ならびに利用が可能なシステムの実現を目的とする。関係データベース(RDB)とクラウドストレージ(NoSQL)の個々の実装に依存せずに各々の利点どうしを相補的に活用するために、個々のRDBやNoSQLを抽象化してミドルウェアで協調動作させ、スケーラブルな多次元データ基盤を実現する。これにより、大規模かつ多種多様、例えばグラフを含む多次元データに対しても、複雑な問い合わせ処理を可能にする。 本年度は、(1)NoSQL型のグラフデータストアでの典型的なグラフ処理、すなわちパス問い合わせと大域的なグラフ処理を両立させるシステムの構成方法、(2)大規模グラフの分散処理ならびにその負荷分散法、(3)時間経過とともに構造が変化する大規模グラフの管理手法、(4)多次元データ基盤の応用に関する研究を実施した。 (1)に関しては、グラフ構造を維持する典型的なデータ構造から、大域的なグラフ処理に必須なフィールドをシーケンシャルアクセスに適したパーティションに分離することで、性質の異なるグラフ処理に対応した。小規模な評価実験により、一つのシステムで異なるグラフ処理が効率的に実行できることを示した。(2)に関しては、大規模データを複数の部分グラフに分割し、各計算ノード間で部分グラフを交換することで、計算ノード間の負荷を分散させる手法を提案し、既存手法よりも負荷均衡状態に早く収束させることが可能であることを実験的に示した。(3)については、時間ごとに混雑度の異なる道路網を例に取り、RDBとグラフデータストアを組み合わせる手法を提案し、効率良く問い合わせ処理ができることを明らかにした。(4)については知識グラフ、オントロジのような知識処理のためのグラフデータを利用して、より精度の高い情報推薦やオントロジの自動拡張を行う手法について研究成果を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、単一のシステムの内部に手を加えてスケーラブルにする方法とは異なり、ソフトウェア自体のメンテナンスのしやすさに利点がある。その半面、複数のシステムの利点・欠点の解析、ならびにAPIの抽象化に難しさがある。このような問題点を踏まえて研究を進めていく必要がある。 本年度は、これまで進めてきたNoSQL型のグラフデータストアに関する研究について、大域的なグラフ処理とパス問い合わせの両方を単一システムで処理可能なアーキテクチャを提案し、異なるワークロードでのデータアクセスに対して効率よく対応できることを、プロトタイプを実装して実験的に示しており、順調に進めている。分散大規模グラフデータ処理についてもプロトタイプを作成することで16ノードのクラスタマシンで評価を行っており、既存手法よりも優れた結果を得ている。しかしながら、複数ノードでの負荷分散処理自体がまだオーバヘッドが大きく、その原因を追及していく必要がある。時間とともに構造が変化するグラフデータの管理とその問い合わせ処理については、RDBとネイティブグラフストアを組み合わせることで、容易に実現できることを明らかにしているが、道路網という特定の応用を仮定しており、その一般化が今後必要となる。以上から、グラフデータに関連する研究項目については、総じて順調に進んでいると判断できる。 応用については、知識グラフやオントロジを利用した推薦システムに焦点を絞って研究を進めており、既存手法と同等の高精度の推薦結果を出力可能なプロトタイプシステムを作成して部分的に評価を行っている。提案する推薦システムは推薦結果の説明を知識グラフやオントロジから生成できる点で、既存手法と比較してより発展的な手法であると言える。上述のとおり、応用についても順調に研究が進んでいると言える。
|
Strategy for Future Research Activity |
今後も、グラフデータベースと関係データベースの統合方法について継続的に研究を進めるとともに、汎用グラフデータストアでの処理とその応用について研究を進める。また、関係データベースとNoSQLの統合に関しては、大規模データに対する集約演算の近似計算のさらなる高精度化について研究を進める。 近似集約演算については、精度を高めるためのカーネル密度推定を利用する手法では、計算精度の保証が不可能である。計算精度を保証するための統計に基づく手法やビットスライスに基づく手法の検討を行うことにより、多次元データにおける精度が保証される近似集約演算について研究を行って行く予定である。 グラフデータストアについては、汎用グラフ処理のためのシステムをより詳細に検討し、評価していく予定である。また分散大規模グラフ処理について、負荷分散処理のオーバヘッドを緩和するため方法について深く検討し解決していく必要がある。さらに、汎用グラフ処理システムと分散大規模グラフ処理の技術を統合して、汎用グラフ処理をスケーラブルに実行できる分散処理方式について検討を進めていく。 応用研究については、大規模グラフ処理の応用として、知識グラフを利用した推薦システムの研究の深化を目指しており、より精度の高い推薦システム構築のための枠組みに関して研究を進める予定である。また、知識グラフやオントロジを自動的に拡張していくための手法も検討しており、これにより、新しく出現した知識を活用できる応用事例の研究も同時に進めて行く予定である。
|