2017 Fiscal Year Annual Research Report
Development of SMAD for big query on big data
Project/Area Number |
17H01693
|
Research Institution | The University of Tokyo |
Principal Investigator |
渋谷 哲朗 東京大学, 医科学研究所, 准教授 (60396893)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | バイオインフォマティクス / アルゴリズム / ビッグデータ / 秘匿検索 |
Outline of Annual Research Achievements |
ビッグクエリー検索は多くの場合計算困難であり、それゆえ、たとえ重要な検索問題であっても取り組まれていない例が多いと考えられる。また、そうでなかった場合も、問題定式化は一意でないことも多い。そこで、大規模ゲノムデータベースとタンパク質立体構造動的データベースを中心に、必要とされるビッグクエリー・ビッグデータ検索問題がどのような問題であるかの検討から始め、それらのう相乗的SMADによって実現可能と思われるものについて、データベースおよびクエリー各々についてモデル・アルゴリズムの検討を行った。大規模ゲノムデータベース上のビッグクエリー×ビッグデータ検索問題として、大規模家系データをクエリーとするデータベース検索の問題と、タンパク質のフレキシブル領域の探索の問題についてデータ構造およびアルゴリズムの検討を行った。大規模家系データをクエリーとするデータベース検索においては、隠れマルコフモデルを用いて組み換えを表現することについて検討を行った。タンパク質立体構造のフレキシブル領域探索においては、フレキシブル領域のモデル化の検討を行っている。また、これらの検討と平行して、大規模家系データ検索においては、解析時のプライバシー保護も問題になることが考えられることから、検索過程を秘匿するためのデータ構造として、大規模ビッグデータに対しても適用可能なSuccinct Oblivious RAMとよぶデータ構造の開発に成功した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度研究計画においては、平成29年度は、まず、主にタンパク質立体構造動的データベースと大規模ゲノムデータベースを中心に、必要とされるビッグクエリー・ビッグデータ検索問題がどのような問題であるかの検討から始め、それらのうち、特に相乗的SMADによって実現可能と思われるものについて、データベースおよびクエリー各々についてモデル・アルゴリズムの検討を行うこと、としており、それに従った検討を行い、今後の研究を進める上でのいくつかの新しい特徴を持つ問題を挙げることができた。それとともに、その過程で検索データ保護などの新しい問題に関して新たな成果を挙げることに成功した。
|
Strategy for Future Research Activity |
次年度からは、まず、初年度に検討した相乗的SMADのためのモデルおよびアルゴリズムに基づいて、実際の検索アルゴリズムの設計ならびにその実装を行っていく。大規模ゲノムデータと大規模家系図を関連させた検索問題に関しては、様々なタイプの検索の実現が求められるため、その研究に力を入れていく。さらに、タンパク質構造フレキシブル領域の探索に関しても、研究を進めていく。それらの研究を進めていくとともに、それらのデータベース以外の様々なデータベース検索に関しても、検討を進めていく。具体的には、地図データベースや音楽データベースなどのデータベースを考えているが、それらに限らず、広く検討を進めていく。また、その過程において、対象データベースのモデル検討もさらに進め、検索技術の開発と並行して、機能予測システム開発など別の局面の技術開発に関しても検討を行っていく。
|
Research Products
(3 results)