| Project/Area Number |
22K17894
|
| Research Category |
Grant-in-Aid for Early-Career Scientists
|
| Allocation Type | Multi-year Fund |
| Review Section |
Basic Section 60080:Database-related
|
| Research Institution | University of Tsukuba |
Principal Investigator |
塩川 浩昭 筑波大学, 計算科学研究センター, 准教授 (90775248)
|
| Project Period (FY) |
2022-04-01 – 2026-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
| Keywords | データベース / 問合せ処理 / データ要約 / 半構造データ / グラフデータ / グラフデータベース / 文字列データベース / ビッグデータ |
| Outline of Research at the Start |
生命科学や医療科学などの研究分野では,大量のデータを活用したデータ駆動型科学へと研究がパラダイムシフトしつつある.本研究は科学データ処理の中でも最も基本的な問合せ処理を対象とした超高速なアルゴリズムの実現を目的として,科学データのもつ特性を活用した効率的なデータ圧縮手法とそれに基づく問合せ処理手法の構築を目標とする.本研究は新たな問合せ処理の計算方式を開拓するとともにその理論的限界を追求する.また,研究成果をソフトウェアとして公開しつつ,医療や科学データ分析などの実応用分野におけるケーススタディを実施することで開発技術の普及とさらなる発展を目指す.
|
| Outline of Annual Research Achievements |
本年度は計画に基づき,(1)半構造データのデータ要約・データ圧縮技術の開拓,(2)半構造データに対する高速な問合せ処理手法の開発に取り組んだ.前年度に開発したモチーフに基づいた高速な問合せ処理手法を半構造データ処理に対して応用することで省メモリかつ効率的な問合せ処理技術を実現した.具体的な各取り組みと研究成果について以下に記載する. (1)本項目では,大規模な半構造データに対し,データ要約を活用したプリミティブなデータ処理を効率化する手法を開発した.具体的には,前年度までに開発したデータ要約法HYBRIDに基づき,頻出要素の数え上げおよび類似性探索といったプリミティブな処理を要約データ上で高速に行うアルゴリズムを開発した.ウェッジ分割とBLEWと呼ばれるビット列表現を用いることで,元のデータを展開することなく正確に処理を行えるのが特徴である.本研究の成果は学術雑誌論文にて発表を行った. (2)本項目では,半構造データベースにおけるパターンマッチ問合せ処理において,特にDISTINCT句を含む問合せの高速化手法を開発した.従来手法は重複排除が必要なDISTINCT句を含む場合に多くの冗長な計算が発生する.提案手法では,問合せ結果に不要な探索の打ち切りと,モチーフに基づく探索順序の最適化を導入することで,問合せ処理の効率を大幅に改善した.大規模な実データに基づく評価では,既存手法に対し平均121倍の高速化,選択率の高いクエリでは最大約200倍の高速化を達成しており,実行計画と探索制御の工夫が有効であることを実証した.本研究の成果は学術雑誌論文にて発表を行った.
|
| Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究課題の進捗状況は,当初の計画を上回る水準に達していると評価できる.令和6(2024)年度の当初計画では,プロパティグラフ集合および文字列シーケンス集合を対象として,ケーススタディの実施およびライブラリの開発を主要な活動内容として設定していた.これらの成果については令和5(2023)年度末までに既に一定の達成を見ており,本年度は,当初は令和7(2025)年度に着手予定であった半構造データ処理に関する研究課題に先行して取り組んでいる.また,本研究課題の一部成果については,既に学術雑誌論文として公表しており,これは令和7年度末における目標成果として設定していた水準に相当するものである.以上のことから,現時点において本研究課題は,当初の計画を超える進展を遂げていると考えられる.
|
| Strategy for Future Research Activity |
上述したとおり,本研究は当初の計画以上に進展している.そのため,2025年度は引き続き当初の計画に基づいて問合せ処理の高速化を活用したケーススタディやライブラリ構築に取り組む予定である.
|