研究課題/領域番号 |
17H01693
|
研究機関 | 東京大学 |
研究代表者 |
渋谷 哲朗 東京大学, 医科学研究所, 准教授 (60396893)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | アルゴリズム / バイオインフォマティクス / ビッグデータ / 秘匿検索 |
研究実績の概要 |
様々な分野の多くのデータベースにおいて、データベースだけでなく、検索クエリー側のデータも複雑化・大規模化しており、必要とされる高速・高精度な検索を実現するようなアルゴリズムの設計はますます困難になりつつある。そのようなきわめて困難な状況に対応できるような革新的なアルゴリズムが今求められている。これに対し、データベースの統計的挙動を活用するSMADとよぶアルゴリズム設計の研究が行われ、近年いくつかの分野で理論・実用両面の大幅な検索高速化が図られ脚光を浴びている。一方、今日の多様化するビッグデータ状況では、データベース側のみならず検索クエリー側も計測技術などの著しい発展によって大規模・多様化している。本研究の目的は、ビッグクエリー時代のビッグデータ検索に対応するため、巨大データゆえに見えてくる大規模データベースと巨大クエリーそれぞれの統計的挙動を相乗的に活用し、現実時間での超高速検索を実現するための技術を開発・応用し、新しい超高速ビッグクエリー×ビッグデータ検索アルゴリズムの基盤を確立することである。本年度は、そのような一例として、タンパク質立体構造の類似検索の新たなアルゴリズムの開発に成功した。立体構造の類似検索は、その比較指標が複雑であればあるほど比較に必要な計算量が極端に大きくなりデータベースが困難になる、という点において、ビッグクエリー×ビッグデータ検索と同様の問題を有する問題であるが、塩基順を固定しない比較を元とする類似検索において高速な手法の開発に成功している。また、同様の別の問題として、グラフ上のパスの検索の問題が挙げられるが、この問題においても、高速なアルゴリズムの実現に成功した。これに加え、より複雑なプライバシー保護検索などの新たな問題に関する調査を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度と2年目にかけて、タンパク質立体構造データベース検索問題の新たな問題について検討を行い、新たな検索技法について成果を上げることができた。また、同時に複雑なグラフ索引の検索手法についての議論・検討も行い、成果を上げることができた。
その一方で、大規模個人ゲノムデータベースで重要な検索問題のひとつとしてとらえられる大規模個人ゲノムグラフへの次世代シークエンサー・リードのマッピングの高速化のための技法の開発を進めている。
それと同時に個人ゲノムデータベースの検索にはプライバシー保護の配慮も重要であることから、プライバシー保護を考慮したデータベース検索の手法についても研究を開始した。
|
今後の研究の推進方策 |
今後は、これまでの研究をさらに推し進め、さまざまな超大規模複雑検索の実際の実現を目指して研究を進めていく。特に、次世代シークエンサーによって得られる大規模データをクエリ―とした超大規模ゲノムデータベース検索の技法について、ハプロタイプ推定技術、大規模アラインメント技術、個人ゲノムグラフ構成技術などを組み合わせることで高度な検索技術の確立を狙っていく。さらに、そのような複雑検索の機能をさらに広げるために、プライバシー保護技術との組み合わせでより社会実装に近い技術の開発も狙っていく。
|