Project/Area Number |
22K17894
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60080:Database-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
塩川 浩昭 筑波大学, 計算科学研究センター, 准教授 (90775248)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | グラフデータベース / 問合せ処理 / 文字列データベース / データベース / ビッグデータ |
Outline of Research at the Start |
生命科学や医療科学などの研究分野では,大量のデータを活用したデータ駆動型科学へと研究がパラダイムシフトしつつある.本研究は科学データ処理の中でも最も基本的な問合せ処理を対象とした超高速なアルゴリズムの実現を目的として,科学データのもつ特性を活用した効率的なデータ圧縮手法とそれに基づく問合せ処理手法の構築を目標とする.本研究は新たな問合せ処理の計算方式を開拓するとともにその理論的限界を追求する.また,研究成果をソフトウェアとして公開しつつ,医療や科学データ分析などの実応用分野におけるケーススタディを実施することで開発技術の普及とさらなる発展を目指す.
|
Outline of Annual Research Achievements |
本年度は研究計画に基づき,(1)プロパティグラフ集合ならびに(2)文字列シーケンス集合を対象として,モチーフ構造に基づいた高速な問合せ処理手法の開発に取り組んだ.前年度に開発したデータ圧縮技術を要素技術として,それぞれの対象の計算空間を削減し,問合せ処理の高速化を実現した.具体的な各取り組みと研究成果について以下に記載する. (1)本項目では前年度に引き続きタンパク質DBをプロパティグラフ集合とみなし,データ要約に基づく高速な類似問合せ処理手法の開発を行った.本手法は前年度開発したデータ圧縮手法を活用してタンパク質DBの頻出構造を捉えた簡潔な構造へとDBを要約する.これにより,提案手法が探索するグラフのサイズは従来手法よりも抑制され,結果として高速な問合せ処理を可能とした.さらに本年度はケーススタディとして,この手法をAI創薬における要素技術であるLBVSに応用・ライブラリ化し,構造活性相関を持つタンパク質を高速に検索するアルゴリズムも開発した.本成果は国際会議にて発表を行った. (2)本項目ではDNAシーケンサを用いて獲得したDNAシーケンスDBを対象とした高速な類似問合せ処理手法の開発を行った.特に本年度は,DNAシーケンスDBからクエリと正の相関関係にある部分シーケンスを高速に検索するためのアルゴリズムの開発に取り組んだ.提案手法は前年度開発したデータ圧縮方式に基づいて(1)と同様にデータ要約を行いつつ,正の相関を持ち得ない部分シーケンスを探索の枝刈りを行う.これにより,従来手法と比較して最大1,000倍程度高速な検索を実現した.また,本研究では提案手法が出力する問合せ処理結果は全件検索を行ったベースライン手法と同一のものとなることを理論的に保証している.本研究の成果は国際会議にて発表を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究課題の現在の進捗状況は当初の計画以上に進展していると評価している.本年度の計画はプロパティグラフ集合ならびに文字列シーケンス集合を対象として,モチーフ構造に基づいたデータ要約を活用した高速な問合せ処理手法を開発することである.これに対して,上述したとおり,本年度はプロパティグラフ集合や文字列シーケンス集合に対する高速な問合せ処理アルゴリズムを実現するだけでなく,一部の成果については実際の科学データ分析を対象としたケーススタディの実施やライブラリ開発にまで研究が進捗している.ケーススタディ・ライブラリ開発については,当初計画では2024年度に取り組む予定の課題であったが,現時点で国際会議での成果発表を行う段階にまで到達している状況である.以上のことより,本研究課題は現時点において当初の計画以上に進展していると考える.
|
Strategy for Future Research Activity |
上述したとおり,本研究は当初の計画以上に進展している.そのため,2024年度は引き続き当初の計画に基づいて問合せ処理の高速化を活用したケーススタディやライブラリ構築に取り組むとともに,2025年度を中心に取り組む計画であった(1)半構造データのデータ要約・データ圧縮技術の開拓,(2)半構造データに対する高速な問合せ処理手法の開発に着手する予定である.
|