Efficient Query Processing for Learning-based Data Management

研究課題

研究課題/領域番号	19K11979
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分60080:データベース関連
研究機関	大阪大学
研究代表者	肖川大阪大学, 情報科学研究科, 准教授 (10643900)
研究期間 (年度)	2019-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	3,640千円 (直接経費: 2,800千円、間接経費: 840千円) 2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2020年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2019年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワード	クエリ処理 / ML for DB / 高次元データ / 類似検索 / query processing / ML + DB / high-dimensional data / similarity search / 問合せ処理 / 機械学習 / データベース / データサイエンス / ML+DB
研究開始時の研究の概要	With the boom in the machine learning research area, a recent trend in database research is to apply machine learning techniques on challenging database tasks such as entity matching. Existing attempts are confronting the bottleneck of inadequate query processing speed for large-scale datasets and the difficulty in generalization across different applications. This project aims to address the fundamental problems of managing data with machine learning methods. The outcome of the research will have a strong impact by providing practical methods beyond what are currently available.
研究成果の概要	本研究では、機械学習に基づくデータマネジメントについてのクエリ処理を対象として、効率的なクエリ処理手法の開発に関する研究を行った。特に、埋め込みベクトルに対するクエリを効率的に処理するため、二つの解決策を開発した。1つ目は、2値の高次元ベクトルに対して、ハミング距離制約のある類似クエリを効率的に回答する。2つ目は、実数値の高次元ベクトルに対して、階層的なグラフ構造を用いて、近似最近傍探索を行う。また、機械学習の述語を含むクエリの処理を研究し、カーディナリティ推定により高速なクエリプランを生成する手法を開発した。システムのプロトタイピングと評価を行い、ソフトウェアのソースコードを公開した。
研究成果の学術的意義や社会的意義	本研究の成果は、機械学習に基づくデータマネジメントの実践的な手法を提供し、次世代データマネジメントシステムの開発に貢献する。最先端のデータベース技術を進展させ、機械学習、自然言語処理、コンピュータビジョンなどの関連研究分野やマーケティング、医療などの応用での技術開発に強い推進力を与える。また、日本のコンピュータサイエンスにおける威信を高め、海外の研究グループとのコラボレーションを促進することにも貢献する。

報告書

(4件)

研究成果
(44件)

すべて 2022 2021 2020 2019 その他

すべて国際共同研究 (6件) 雑誌論文 (10件) (うち国際共著 5件、査読あり 10件、オープンアクセス 10件) 学会発表 (23件) (うち国際学会 9件) 備考 (5件)

[国際共同研究] シドニー工科大学(オーストラリア)
- 関連する報告書
  2021 実績報告書
[国際共同研究] 香港科技大学/深セン大学/深セン計算科学研究院(中国)
- 関連する報告書
  2021 実績報告書
[国際共同研究] ニューサウスウェールズ大学/メルボルン大学/シドニー工科大学(オーストラリア)
- 関連する報告書
  2020 実施状況報告書
[国際共同研究] 深セン大学(中国)
- 関連する報告書
  2020 実施状況報告書
[国際共同研究] ニューサウスウェールズ大学/メルボルン大学(オーストラリア)
- 関連する報告書
  2019 実施状況報告書
[国際共同研究] 香港科技大学/北京理工大学/深セン計算科学研究院(中国)
- 関連する報告書
  2019 実施状況報告書
[雑誌論文] HSGAN: Reducing mode collapse in GANs by the latent code distance of homogeneous samples2022
- 著者名/発表者名
  Simin Yu, Kuntian Zhang, Chuan Xiao, Joshua Zhexue Huang, Mark Junjie Li, Makoto Onizuka
- 雑誌名
  
  Computer Vision and Image Understanding
  
  巻: 214 ページ: 103314-103314
- DOI
  10.1016/j.cviu.2021.103314
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] HVS: Hierarchical Graph Structure Based on Voronoi Diagrams for Solving Approximate Nearest Neighbor Search2021
- 著者名/発表者名
  Kejing Lu, Mineichi Kudo, Chuan Xiao, Yoshiharu Ishikawa
- 雑誌名
  
  Proceedings of the VLDB Endowment
  
  巻: 15 号: 2 ページ: 246-258
- DOI
  10.14778/3489496.3489506
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Continuous Top-k Spatial-Keyword Search on Dynamic Objects2021
- 著者名/発表者名
  Yuyang Dong, Chuan Xiao, Hanxiong Chen, Jeffrey Xu Yu, Kunihiro Takeoka, Masafumi Oyamada, and Hiroyuki Kitagawa
- 雑誌名
  
  The VLDB Journal
  
  巻: 30 号: 2 ページ: 141-161
- DOI
  10.1007/s00778-020-00627-4
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] 道路ネットワーク上の軌跡データに対する圧縮索引2020
- 著者名/発表者名
  小出智士, 肖川, 石川佳治
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J103-D 号: 5 ページ: 393-402
- DOI
  10.14923/transinfj.2019DET0001
- NAID
  130008110439
- ISSN
  1880-4535, 1881-0225
- 年月日
  2020-05-01
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Similarity Query Processing for High-Dimensional Data2020
- 著者名/発表者名
  Jianbin Qin, Wei Wang, Chuan Xiao, and Ying Zhang
- 雑誌名
  
  Proceedings of the VLDB Endowment
  
  巻: 13 号: 12 ページ: 3437-3440
- DOI
  10.14778/3415478.3415564
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Fast Subtrajectory Similarity Search in Road Networks under Weighted Edit Distance Constraints2020
- 著者名/発表者名
  Satoshi Koide, Chuan Xiao, and Yoshiharu Ishikawa
- 雑誌名
  
  Proceedings of the VLDB Endowment
  
  巻: 13 号: 12 ページ: 2188-2201
- DOI
  10.14778/3407790.3407818
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Efficient Query Autocompletion with Edit Distance-based Error Tolerance2020
- 著者名/発表者名
  Jianbin Qin, Chuan Xiao, Sheng Hu, Jie Zhang, Wei Wang, Yoshiharu Ishikawa, Koji Tsuda, Kunihiko Sadakane
- 雑誌名
  
  The VLDB Journal
  
  巻: - 号: 4 ページ: 919-943
- DOI
  10.1007/s00778-019-00595-4
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Generalizing the Pigeonhole Principle for Similarity Search in Hamming Space2020
- 著者名/発表者名
  Jianbin Qin, Chuan Xiao, Yaoshu Wang, Wei Wang, Xuemin Lin, Yoshiharu Ishikawa, Guoren Wang
- 雑誌名
  
  IEEE Transactions on Knowledge and Data Engineering
  
  巻: - ページ: 489-505
- DOI
  10.1109/tkde.2019.2899597
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Building Hierarchical Spatial Histograms for Exploratory Analysis in Array DBMS2019
- 著者名/発表者名
  Jing Zhao, Yoshiharu Ishikawa, Lei Chen, Chuan Xiao, Kento Sugiura
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E102.D 号: 4 ページ: 788-799
- DOI
  10.1587/transinf.2018DAP0020
- NAID
  130007621888
- ISSN
  0916-8532, 1745-1361
- 年月日
  2019-04-01
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Scope-aware Code Completion with Discriminative Modeling2019
- 著者名/発表者名
  Sheng Hu, Chuan Xiao, Yoshiharu Ishikawa
- 雑誌名
  
  Journal of Information Processing
  
  巻: 27 号: 0 ページ: 469-478
- DOI
  10.2197/ipsjjip.27.469
- NAID
  130007690191
- ISSN
  1882-6652
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] JupySim: Jupyter Notebook Similarity Search System2022
- 著者名/発表者名
  Misato Horiuchi, Yuya Sasaki, Chuan Xiao, Makoto Onizuka
- 学会等名
  International Conference on Extending Database Technology (EDBT)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] 深層生成モデルを用いた編集を意識した分子グラフ補完2022
- 著者名/発表者名
  胡晟, 瀧川一学, 肖川
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム (DEIM)
- 関連する報告書
  2021 実績報告書
[学会発表] 学習型索引を用いた時系列データ検索の高速化2022
- 著者名/発表者名
  松本和人, 肖川, 鬼塚真
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム (DEIM)
- 関連する報告書
  2021 実績報告書
[学会発表] Attention GANを用いたテーブルデータの欠測値補完2022
- 著者名/発表者名
  河越淳, 董于洋, 野澤拓磨, 肖川
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム (DEIM)
- 関連する報告書
  2021 実績報告書
[学会発表] 結合カーディナリティ推定の中間結果を利用した結合順最適化2022
- 著者名/発表者名
  川本孝太朗, 伊藤竜一, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム (DEIM)
- 関連する報告書
  2021 実績報告書
[学会発表] 統合型データベースにおける適応的2相ロックに基づく分散トランザクション制御2022
- 著者名/発表者名
  三宅康太, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム (DEIM)
- 関連する報告書
  2021 実績報告書
[学会発表] モデル構造の自動チューニングを用いたパーソナライズド連合学習手法2022
- 著者名/発表者名
  松田光司, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム (DEIM)
- 関連する報告書
  2021 実績報告書
[学会発表] 機械学習によるトランザクション処理性能の網羅的な評価2022
- 著者名/発表者名
  池田悠人, 三宅康太, 肖川, 鬼塚真
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム (DEIM)
- 関連する報告書
  2021 実績報告書
[学会発表] High-Dimensional Similarity Query Processing for Data Science2021
- 著者名/発表者名
  Jianbin Qin, Wei Wang, Chuan Xiao, Ying Zhang, Yaoshu Wang
- 学会等名
  ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] BTGAN: Training GAN with Balanced Triplet Loss and Two-Branch Architecture2021
- 著者名/発表者名
  Simin Yu, Kuntian Zhang, Chuan Xiao, Xianyu Bao, Joshua Zhexue Huang, Mark Junjie Li
- 学会等名
  International Joint Conference on Neural Networks (IJCNN)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Consistent and Flexible Selectivity Estimation for High-Dimensional Data2021
- 著者名/発表者名
  Yaoshu Wang, Chuan Xiao, Jianbin Qin, Rui Mao, Makoto Onizuka, Wei Wang, Rui Zhang, and Yoshiharu Ishikawa
- 学会等名
  ACM SIGMOD International Conference on Management of Data (SIGMOD 2021)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Efficient Joinable Table Discovery in Data Lakes: A High-Dimensional Similarity-Based Approach2021
- 著者名/発表者名
  Yuyang Dong, Kunihiro Takeoka, Chuan Xiao, and Masafumi Oyamada
- 学会等名
  IEEE International Conference on Data Engineering (ICDE 2021)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Non-Autoregressiveモデルによる高速で安定したカーディナリティ推定2021
- 著者名/発表者名
  伊藤竜一, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第13回データ工学と情報マネジメントに関するフォーラム (DEIM 2021)
- 関連する報告書
  2020 実施状況報告書
[学会発表] FedMe: モデル交換に基づく連合学習手法2021
- 著者名/発表者名
  松田光司, 堀敬三, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第13回データ工学と情報マネジメントに関するフォーラム (DEIM 2021)
- 関連する報告書
  2020 実施状況報告書
[学会発表] 計算ノートブック類似検索のための高速な検索アルゴリズム2021
- 著者名/発表者名
  堀内美聡, 山崎翔平, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第13回データ工学と情報マネジメントに関するフォーラム (DEIM 2021)
- 関連する報告書
  2020 実施状況報告書
[学会発表] 深層生成モデルを用いた分子グラフ自動補完2021
- 著者名/発表者名
  胡晟, 瀧川一学, 肖川
- 学会等名
  第13回データ工学と情報マネジメントに関するフォーラム (DEIM 2021)
- 関連する報告書
  2020 実施状況報告書
[学会発表] Monotonic Cardinality Estimation of Similarity Selection: A Deep Learning Approach2020
- 著者名/発表者名
  Yaoshu Wang, Chuan Xiao, Jianbin Qin, Xin Cao, Yifang Sun, Wei Wang, and Makoto Onizuka
- 学会等名
  ACM SIGMOD International Conference on Management of Data (SIGMOD 2020)
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] P2P型データ統合アーキテクチャにおけるチケットベース手法を用いた分散トランザクション制御2020
- 著者名/発表者名
  三宅康太, 涌田悠佑, 佐々木勇和, 肖川, 鬼塚真
- 学会等名
  第12回データ工学と情報マネジメントに関するフォーラム (DEIM 2020)
- 関連する報告書
  2019 実施状況報告書
[学会発表] トライ木及びGMMに基づく略語のフルネームのスケーラブルな推測手法2020
- 著者名/発表者名
  高明敏, 肖川, 石川佳治
- 学会等名
  第12回データ工学と情報マネジメントに関するフォーラム (DEIM 2020)
- 関連する報告書
  2019 実施状況報告書
[学会発表] 多様化軌跡を効率検索するための統合クエリパラダイム2020
- 著者名/発表者名
  胡晟, 馬強, 肖川
- 学会等名
  第12回データ工学と情報マネジメントに関するフォーラム (DEIM 2020)
- 関連する報告書
  2019 実施状況報告書
[学会発表] Distributed Transaction Management for P2P-based Update Propagation2019
- 著者名/発表者名
  Makoto Onizuka, Yusuke Wakuta, Yuya Sasaki, Chuan Xiao
- 学会等名
  The 3rd Workshop on Software Foundations for Data Interoperability (SFDI 2019)
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Autocompletion for Prefix-Abbreviated Input2019
- 著者名/発表者名
  Sheng Hu, Chuan Xiao, Jianbin Qin, Yoshiharu Ishikawa, Qiang Ma
- 学会等名
  ACM SIGMOD International Conference on Management of Data (SIGMOD 2019)
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Dynamic Set kNN Self-Join2019
- 著者名/発表者名
  Daichi Amagata, Takahiro Hara, Chuan Xiao
- 学会等名
  The 35th IEEE International Conference on Data Engineering (ICDE 2019)
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[備考] 大阪大学ビッグデータ工学講座鬼塚研究室
- URL
  http://www-bigdata.ist.osaka-u.ac.jp/ja/paper/
- 関連する報告書
  2021 実績報告書 2020 実施状況報告書 2019 実施状況報告書
[備考] 名古屋大学情報学研究科データベース研究室（石川研究室）
- URL
  https://www.db.is.i.nagoya-u.ac.jp/ja/research/publications/
- 関連する報告書
  2021 実績報告書 2020 実施状況報告書 2019 実施状況報告書
[備考] Chuan Xiaoのホームページ
- URL
  https://sites.google.com/site/chuanxiao1983/publication
- 関連する報告書
  2021 実績報告書
[備考] Chuan XiaoのDBLPページ
- URL
  https://dblp.org/pid/57/4384-1.html
- 関連する報告書
  2021 実績報告書
[備考] Chuan Xiao's homepage
- URL
  https://sites.google.com/site/chuanxiao1983/publication
- 関連する報告書
  2020 実施状況報告書 2019 実施状況報告書

Efficient Query Processing for Learning-based Data Management

研究代表者

肖 川 大阪大学, 情報科学研究科, 准教授 (10643900)

3,640千円 (直接経費: 2,800千円、間接経費: 840千円)

報告書

研究成果

[国際共同研究] シドニー工科大学(オーストラリア)

関連する報告書

[国際共同研究] 香港科技大学/深セン大学/深セン計算科学研究院(中国)

関連する報告書

[国際共同研究] ニューサウスウェールズ大学/メルボルン大学/シドニー工科大学(オーストラリア)

関連する報告書

[国際共同研究] 深セン大学(中国)

関連する報告書

[国際共同研究] ニューサウスウェールズ大学/メルボルン大学(オーストラリア)

関連する報告書

[国際共同研究] 香港科技大学/北京理工大学/深セン計算科学研究院(中国)

関連する報告書

[雑誌論文] HSGAN: Reducing mode collapse in GANs by the latent code distance of homogeneous samples2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] HVS: Hierarchical Graph Structure Based on Voronoi Diagrams for Solving Approximate Nearest Neighbor Search2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Continuous Top-k Spatial-Keyword Search on Dynamic Objects2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 道路ネットワーク上の軌跡データに対する圧縮索引2020

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Similarity Query Processing for High-Dimensional Data2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Fast Subtrajectory Similarity Search in Road Networks under Weighted Edit Distance Constraints2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Efficient Query Autocompletion with Edit Distance-based Error Tolerance2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Generalizing the Pigeonhole Principle for Similarity Search in Hamming Space2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Building Hierarchical Spatial Histograms for Exploratory Analysis in Array DBMS2019

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Scope-aware Code Completion with Discriminative Modeling2019

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] JupySim: Jupyter Notebook Similarity Search System2022

著者名/発表者名

学会等名

関連する報告書

肖川大阪大学, 情報科学研究科, 准教授 (10643900)