研究課題/領域番号 |
18H03242
|
研究機関 | 東京工業大学 |
研究代表者 |
宮崎 純 東京工業大学, 情報理工学院, 教授 (40293394)
|
研究分担者 |
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
中村 匡秀 神戸大学, システム情報学研究科, 准教授 (30324859)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 多次元データ / 集約演算 / 近似計算 / グラフ処理 |
研究実績の概要 |
本研究は、大規模多次元データの容易な維持管理ならびに利用が可能なシステムの実現を目的とする。関係データベース(RDB)とクラウドストレージ(NoSQL)の個々の実装に依存せずに各々の利点どうしを相補的に活用するために、個々のRDBやNoSQLを抽象化してミドルウェアで協調動作させ、スケーラブルな多次元データ基盤を実現する。これにより、大規模かつ多種多様、例えばグラフを含む多次元データに対しても、複雑な問い合わせ処理を可能にする。 本年度は、RDBとNoSQLの一般的なデータ操作APIを利用した多次元データストアにおける集約演算の近似問い合わせ処理手法について提案し、その評価を行った。提案した近似問い合わせ法は、KD-treeで分割された多次元データについて、各部分空間のデータを多次元ヒストグラムで近似化する手法、カーネル密度推定を利用して近似化する手法、ならびにこれら二つの手法を組み合わせた手法を提案した。多次元ヒストグラムは、データを近似化するとその要約データサイズを小さくできるものの、近似演算の精度は劣る。一方、カーネル密度推定による要約化では、データサイズは大きいが近似集約演算の精度は高い。多次元ヒストグラムとカーネル密度推定を組み合わせることにより、要約データを小さくしつつ集約演算結果の精度を高めることができる。これらの手法を、大規模センサーデータを利用した実験により評価し結果、多次元ヒストグラムとカーネル密度推定を組み合わせた手法は、多次元ヒストグラムに由来する要約データの小ささから応答時間が短く、同時にカーネル密度推定に由来して演算結果の精度が高く、時間と精度の両立が可能であることを示した。 これ以外にも、グラフデータに関する応用として、知識グラフを利用した、グラフ経路探索に基づく推薦アイテムの推薦理由生成に関する研究についても成果が得られた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は、単一のシステムの内部に手を加えてスケーラブルにする方法とは異なり、ソフトウェア自体のメンテナンスのしやすさに利点がある。その半面、複数のシステムの利点・欠点の解析、ならびにAPIの抽象化に難しさがある。特に関係データベースはSQLという共通のデータ操作言語があるため問題とならないが、クラウドストレージは多様なインタフェースを持つ。 2018年度で実現したRDBとNoSQLを組み合わせた多次元データ基盤のアーキテクチャを踏襲し、その上で大規模なデータ処理で必須となる集約演算の近似演算を低コストでかつ高い精度で行うことのできる手法を提案し、良い結果が得られた。そのため、この研究項目については十分な達成度、完成度であると言え、今後も継続して研究を進めていく。 一方、グラフデータベースと関係データベースの統合も継続的に進めているが、多くの問題点が判明している。今後も継続してこの課題に望んでいく予定である。その過程で、グラフデータベースのアーキテクチャについて探求し、経路問い合わせとPageRankのような大域的なグラフ処理という全く性質の異なるグラフデータ処理を両立させる手法に関する新しい着想を得た。 多次元データ基盤の応用として、知識グラフを利用した情報推薦手法についても取り組んでおり、知識グラフの経路探索を行うことにより、推薦アイテムの推薦理由の生成や蓄積データが少ない時の、いわゆるコールドスタート問題の一助となる手法を提案している。多次元データ基盤の応用に関する研究項目については順調に進んでいると判断できる。
|
今後の研究の推進方策 |
今後も、関係データベースとNoSQLの統合に関して、近似集約演算のさらなる高精度化について研究を進める。また、グラフデータベースと関係データベースの統合方法について継続的に研究を進めるとともに、汎用グラフデータベース処理について研究を進める。 近似集約演算については、精度を高めるためのカーネル密度推定を応用する手法では、計算精度の保証が不可能である。計算精度を保証するための統計に基づく手法やビットスライスに基づく手法の検討を行うことにより、多次元データにおける精度が保証される近似集約演算について研究を行って行く予定である。 また、グラフデータベースについては、関係データベースとの組み合わせにより、時間とともにグラフ構造が変化するような動的なグラフ構造について、両者の機能を活用した効率の良いグラフデータベース処理について研究を進める。例えば、道路ネットワークにおいて、時間帯によって混雑の状況が変化するような場合を例に取り、その管理手法について検討を行う必要がある。また、グラフデータベースにおける経路探索や大域的なグラフ処理の本質的に異なる二つの処理を、単一のグラフデータベースで処理可能にするためのアーキテクチャやそのスケーラブルな処理手法について検討を行っていく予定である。 多次元データ基盤の応用として、引き続き知識グラフやオントロジなどのグラフ構造を利用した推薦システムなどの応用事例を検討し、それらの応用に必須となるグラフ処理の多次元データ基盤による支援について研究を進めていく。 今後これらの各研究項目の諸問題の解決方法を検討していき、研究の推進につなげる予定である。
|