2016 Fiscal Year Annual Research Report
Fast Similarity Search on Big Data based on SMAD and its applications
Project/Area Number |
25280002
|
Research Institution | The University of Tokyo |
Principal Investigator |
渋谷 哲朗 東京大学, 医科学研究所, 准教授 (60396893)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | アルゴリズム / 検索 / バイオインフォマティクス / ビッグデータ |
Outline of Annual Research Achievements |
本研究の目的は、多様化するビッグデータ時代の巨大データに対し、巨大データゆえに見えてくるデータの統計的挙動を活用し、超高速検索を実現する技術を開発・応用することである。これまで、巨大データからの知識発見・学習理論分野では様々な複雑な統計モデルが活用されてきているが、検索アルゴリズムの高速化への活用はきわめて困難でほとんどなされてこなかった。本研究では、本研究代表者が開発し世界的にも注目されている最新アルゴリズム開発手法SMAD(Statistical Model-based Algorithm Design)を用い、複雑な統計モデルを活用して、タンパク質立体構造データベースなどの生物学データベースをはじめとした複雑な巨大データからなるデータベースにおける超高速検索の実現をめざすとともに、新たな応用開拓をめざしてきた。本研究でめざすSMADにおいては、大規模データがどのようなモデルからなっているかを抽出する必要がある。本研究では、ニューラルネットワークを用いたモデル抽出などを行うことに成功してきたが、それらの方法は検索との相性があまりよくないことがわかった。そのため、I接尾辞木とよばれる部分行列検索構造を元に、きわめて高速に構造のグラフモデルからモデル構造を検索することが可能な、新たなデータ構造の開発に成功した。さらに検索のための索引との相性のきわめて高い新たなタンパク質立体構造のモデル抽出アルゴリズム、そのモデルの検索索引アルゴリズム、さらにそれらを活用した高精度なタンパク質立体構造からの機能予測アルゴリズムの構築に成功した。このアルゴリズムは、従来の機能予測精度を落とすことなく、16-37倍の高速化を実現した。
|
Research Progress Status |
28年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
28年度が最終年度であるため、記入しない。
|
Causes of Carryover |
28年度が最終年度であるため、記入しない。
|
Expenditure Plan for Carryover Budget |
28年度が最終年度であるため、記入しない。
|