2019 Fiscal Year Annual Research Report
Development of SMAD for big query on big data
Project/Area Number |
17H01693
|
Research Institution | The University of Tokyo |
Principal Investigator |
渋谷 哲朗 東京大学, 医科学研究所, 教授 (60396893)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | アルゴリズム / バイオインフォマティクス / ビッグデータ / 次世代シークエンサー / 差分プライバシー |
Outline of Annual Research Achievements |
様々な分野の多くのデータベースにおいて、データベース側のみならず検索側のデータも複雑化・大型化しており、必要とされる高速・高精度な検索を実現するアルゴリズム設計はますます困難となっている。一方、大規模化するデータベースに対する検索アルゴリズムについては、これまでも様々なアプローチから研究がなされ、特にSMADとよばれるデータベースの統計的挙動を活用するアルゴリズム設計による高速化が脚光をあびている。本研究ではこれまで、このSMADとよばれるデータベース検索のためのアルゴリズム設計パラダイムを、検索側のデータが巨大な場合にも広げるためのアルゴリズム基盤の構築をめざして研究を行い、これまでもタンパク質立体構造類似検索の成果などを上げてきた。本年度は、さらに新たな研究対象として次世代シークエンサーにおける巨大検索データに関する研究を行った。次世代シークエンサーにおいては、次世代シークエンサーより出力された出力を、ヒト参照ゲノムをはじめとする様々なデータベースに対して検索を行うが、その検索を正確かつ高度なものとするためには、データの高精度化および検索可能なデータ抽出が必要になる。本研究では、そのためのセグメンテーション技術の研究を行った。また、グラフ上の検索手法に関する調査研究を行うとともに、より複雑なプライバシー保護検索応用として、差分プライバシーを考えた高度検索を行う技術の開発を開始した。また、本年度はこれらの技術をベースとして、自然言語処理に関する新たな技術開発研究も開始した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度と2年目にかけて、タンパク質立体構造データベース検索問題について検討・調査を行い、新たな検索技法に関する成果を上げることができた。また、同時に複雑なグラフ索引手法に関する議論・検討も行い、成果を上げることができた。
さらに3年目には大規模個人ゲノムデータベース検索において重要な検索側データの整備に関する新たな成果をあげることができた。
それと同時に、プライバシー保護を考慮したデータベース検索に関しても確実に成果を上げつつある。また、これまでに得た知見に関しては、サーベイ論文などにまとめるなど一般への知識波及に関しても進めることができた。
|
Strategy for Future Research Activity |
最終年度となる本年度は、これらの研究をさらに推し進め、プライバシー保護技術分野での実際の検索技法の確立、またゲノムデータベースやタンパク質立体構造データベースのさらに新たな検索技法の確立を狙っていく。さらに今後はこれらの検索技術を自然言語処理にも応用する展開も行っていく。その上で、本研究終了後のさらなる展開につなげていくことをめざす。
|
Research Products
(4 results)