Fast Query Processing for Large Scientific Databases
Project/Area Number |
22K17894
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60080:Database-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
塩川 浩昭 筑波大学, 計算科学研究センター, 准教授 (90775248)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | グラフデータベース / 問合せ処理 / 文字列データベース / データベース / ビッグデータ |
Outline of Research at the Start |
生命科学や医療科学などの研究分野では,大量のデータを活用したデータ駆動型科学へと研究がパラダイムシフトしつつある.本研究は科学データ処理の中でも最も基本的な問合せ処理を対象とした超高速なアルゴリズムの実現を目的として,科学データのもつ特性を活用した効率的なデータ圧縮手法とそれに基づく問合せ処理手法の構築を目標とする.本研究は新たな問合せ処理の計算方式を開拓するとともにその理論的限界を追求する.また,研究成果をソフトウェアとして公開しつつ,医療や科学データ分析などの実応用分野におけるケーススタディを実施することで開発技術の普及とさらなる発展を目指す.
|
Outline of Annual Research Achievements |
本年度は研究計画に基づき,(1)プロパティグラフ集合ならびに(2)文字列シーケンス集合に対するモチーフに基づくデータ要約技術の開拓と,これらの技術を活用した類似・相関問合せ処理の高速化手法の開発に取り組んだ.各取り組みと研究成果について以下に記載する. (1)本項目では創薬を目的として公開されているタンパク質DBをプロパティグラフ集合とみなし,データ要約と要約に基づく高速な相関問合せ処理手法の開発を行った.データ要約手法ではタンパク質DBにおいて頻出構造を捉える.ランダムに選択した頻出構造はタンパク質DB内において単一ノードなどの簡潔な構造へと要約を行う.このような要約DBを事前に複数構築し,問合せ処理の際には全ての要約DBに対して乱択アルゴリズムに基づいて検索処理を実行する.各要約は少数のノードから構成されることから,従来よりも高速に問合せ処理を実行可能である.また,乱択アルゴリズムにより偽陰性を排除することが可能である.本研究の成果は現在,国際会議に投稿中である. (2)本項目ではDNAシーケンサを用いて獲得したDNAシーケンスDBを題材としてデータ要約技術ならびに問合せ処理技術の開発を行った.DNAシーケンスは4種類の文字から構成される文字列として保存されている.本研究では編集距離を用いたDNAシーケンスDBにおける類似問合せに取り組んだ.(1)で示した方式と同様に,データベース内で頻出する部分シーケンスを着目し,これらを短い文字列へと置き換えることでデータ要約を行う.要約したDNAシーケンス集合に対して編集距離計算を行う際は,各要約から導き出される編集距離の値の上界・下界を用いて探索不要なDNAシーケンスを特定し,問合せ処理の対象から除外する.この方式により,大規模なDNAシーケンスDBに対する高速な問合せ処理を実現した.本研究の成果は国際会議にて発表を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究課題の現在の進捗状況は当初の計画以上に進展していると評価している.本年度の計画はプロパティグラフ集合ならびに文字列シーケンス集合を対象として,モチーフ構造に基づいたデータ要約・データ圧縮技術を開発することである.これに対して,上述したとおり,本年度はプロパティグラフ集合や文字列シーケンス集合に対するデータ要約ならびにこれらの要約技術を活用した高速な問合せ処理アルゴリズムの開発まで研究が進捗している.問合せ処理の高速化については,当初計画では2023年度に取り組む予定の課題であるが,現時点で国際会議へ投稿する段階にまで到達している状況である.以上のことより,本研究課題は現時点において当初の計画以上に進展していると考える.
|
Strategy for Future Research Activity |
上述したとおり,本研究は当初の計画以上に進展している.そのため,2023年度は引き続き当初の計画に基づいて問合せ処理の高速化に取り組むとともに,2024年度に取り組む計画であった(1)半構造データのデータ要約・データ圧縮技術の開拓,(2)プロパティグラフ集合・文字列シーケンス集合における問合せ処理手法のライブラリ化とケーススタディに着手する予定である.このうち,(2)で述べたライブラリ化とケーススタディについては既に事前準備が完了している段階にあるため,2023年度の上半期から具体的な取り組みを開始できる見込みである.
|
Report
(1 results)
Research Products
(13 results)