• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Fast Query Processing for Large Scientific Databases

Research Project

Project/Area Number 22K17894
Research InstitutionUniversity of Tsukuba

Principal Investigator

塩川 浩昭  筑波大学, 計算科学研究センター, 准教授 (90775248)

Project Period (FY) 2022-04-01 – 2026-03-31
Keywordsグラフデータベース / 問合せ処理 / 文字列データベース
Outline of Annual Research Achievements

本年度は研究計画に基づき,(1)プロパティグラフ集合ならびに(2)文字列シーケンス集合に対するモチーフに基づくデータ要約技術の開拓と,これらの技術を活用した類似・相関問合せ処理の高速化手法の開発に取り組んだ.各取り組みと研究成果について以下に記載する.
(1)本項目では創薬を目的として公開されているタンパク質DBをプロパティグラフ集合とみなし,データ要約と要約に基づく高速な相関問合せ処理手法の開発を行った.データ要約手法ではタンパク質DBにおいて頻出構造を捉える.ランダムに選択した頻出構造はタンパク質DB内において単一ノードなどの簡潔な構造へと要約を行う.このような要約DBを事前に複数構築し,問合せ処理の際には全ての要約DBに対して乱択アルゴリズムに基づいて検索処理を実行する.各要約は少数のノードから構成されることから,従来よりも高速に問合せ処理を実行可能である.また,乱択アルゴリズムにより偽陰性を排除することが可能である.本研究の成果は現在,国際会議に投稿中である.
(2)本項目ではDNAシーケンサを用いて獲得したDNAシーケンスDBを題材としてデータ要約技術ならびに問合せ処理技術の開発を行った.DNAシーケンスは4種類の文字から構成される文字列として保存されている.本研究では編集距離を用いたDNAシーケンスDBにおける類似問合せに取り組んだ.(1)で示した方式と同様に,データベース内で頻出する部分シーケンスを着目し,これらを短い文字列へと置き換えることでデータ要約を行う.要約したDNAシーケンス集合に対して編集距離計算を行う際は,各要約から導き出される編集距離の値の上界・下界を用いて探索不要なDNAシーケンスを特定し,問合せ処理の対象から除外する.この方式により,大規模なDNAシーケンスDBに対する高速な問合せ処理を実現した.本研究の成果は国際会議にて発表を行った.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

本研究課題の現在の進捗状況は当初の計画以上に進展していると評価している.本年度の計画はプロパティグラフ集合ならびに文字列シーケンス集合を対象として,モチーフ構造に基づいたデータ要約・データ圧縮技術を開発することである.これに対して,上述したとおり,本年度はプロパティグラフ集合や文字列シーケンス集合に対するデータ要約ならびにこれらの要約技術を活用した高速な問合せ処理アルゴリズムの開発まで研究が進捗している.問合せ処理の高速化については,当初計画では2023年度に取り組む予定の課題であるが,現時点で国際会議へ投稿する段階にまで到達している状況である.以上のことより,本研究課題は現時点において当初の計画以上に進展していると考える.

Strategy for Future Research Activity

上述したとおり,本研究は当初の計画以上に進展している.そのため,2023年度は引き続き当初の計画に基づいて問合せ処理の高速化に取り組むとともに,2024年度に取り組む計画であった(1)半構造データのデータ要約・データ圧縮技術の開拓,(2)プロパティグラフ集合・文字列シーケンス集合における問合せ処理手法のライブラリ化とケーススタディに着手する予定である.このうち,(2)で述べたライブラリ化とケーススタディについては既に事前準備が完了している段階にあるため,2023年度の上半期から具体的な取り組みを開始できる見込みである.

Causes of Carryover

学会発表のための出張を計画していたが,参加予定であった会議が新型コロナウィルス感染症の影響によりオンライン開催となった.その結果として,当初計画していた費用の支出が行われず,次年度使用額が生じることとなった.
本研究課題は現在のところ,当初の計画よりも大幅に進捗しているため,次年度使用額については学会発表費用や論文誌の英文校閲費用に使用する計画である.

  • Research Products

    (13 results)

All 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 3 results) Presentation (10 results) (of which Int'l Joint Research: 4 results,  Invited: 2 results)

  • [Journal Article] Indexing complex networks for fast attributed kNN queries2022

    • Author(s)
      Kobayashi Suomi、Matsugu Shohei、Shiokawa Hiroaki
    • Journal Title

      Social Network Analysis and Mining

      Volume: 12 Pages: -

    • DOI

      10.1007/s13278-022-00904-w

    • Peer Reviewed / Open Access
  • [Journal Article] Tree-Based Graph Indexing for Fast kNN Queries2022

    • Author(s)
      Kobayashi Suomi、Matsugu Shohei、Shiokawa Hiroaki
    • Journal Title

      Information Integration and Web Intelligence

      Volume: - Pages: 195~207

    • DOI

      10.1007/978-3-031-21047-1_18

    • Peer Reviewed / Open Access
  • [Journal Article] Fast Top-k Similar Sequence Search on DNA Databases2022

    • Author(s)
      Yagi Ryuichi、Shiokawa Hiroaki
    • Journal Title

      Information Integration and Web Intelligence

      Volume: - Pages: 145~150

    • DOI

      10.1007/978-3-031-21047-1_14

    • Peer Reviewed / Open Access
  • [Presentation] グラフ集約に基づく高速な最大k-plex探索2023

    • Author(s)
      真次 彰平, 藤原 靖宏, 塩川 浩昭
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] 動的グラフにおけるk最近傍探索のための索引更新手法の提案2023

    • Author(s)
      小林 瑞季, 真次 彰平, 塩川 浩昭
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] グラフデータベースに対する高速高精度な相関問合せ2023

    • Author(s)
      直井 悠馬, 真次 彰平, 塩川 浩昭
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] DNAデータベースに対する効率的な相関問合せ手法の提案2023

    • Author(s)
      八木 隆一, 直井 悠馬, 塩川 浩昭
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] 多次元時系列データに対する類似部分シーケンス問合せの高速化2023

    • Author(s)
      安田 裕真, 塩川 浩昭
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] 多次元時系列データに対する高速なモチーフ問合せ手法の提案2023

    • Author(s)
      安田 裕真, 塩川 浩昭
    • Organizer
      情報処理学会 第85回全国大会
  • [Presentation] Tree-Based Graph Indexing for Fast kNN Queries2022

    • Author(s)
      Suomi Kobayashi, Shohei Matsugu, Hiroaki Shiokawa
    • Organizer
      The 24th International Conference on Information Integration and Web Intelligence
    • Int'l Joint Research
  • [Presentation] Fast Top-k Similar Sequence Search on DNA Databases2022

    • Author(s)
      Ryuichi Yagi, Hiroaki Shiokawa
    • Organizer
      The 24th International Conference on Information Integration and Web Intelligence
    • Int'l Joint Research
  • [Presentation] Fast Similarity Search for Large Knowledge Graphs2022

    • Author(s)
      Hiroaki Shiokawa
    • Organizer
      Aarhus Workshop on Graph Access and Analysis
    • Int'l Joint Research / Invited
  • [Presentation] Graph-based Clustering at Scale2022

    • Author(s)
      Hiroaki Shiokawa
    • Organizer
      Aarhus Workshop on Graph Access and Analysis
    • Int'l Joint Research / Invited

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi