2014 Fiscal Year Annual Research Report
SMADによるビッグデータ類似検索超高速化とその応用
Project/Area Number |
25280002
|
Research Institution | The University of Tokyo |
Principal Investigator |
渋谷 哲朗 東京大学, 医科学研究所, 准教授 (60396893)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | アルゴリズム / データ検索 / ビッグデータ / タンパク質立体構造 / バイオインフォマティクス |
Outline of Annual Research Achievements |
本研究の目的は、多様化するビッグデータ時代の巨大データに対し、巨大データゆえに見えてくるデータの統計的挙動を活用し、超高速検索を実現する技術を開発・応用することである。これまで、巨大データからの知識発見・学習理論分野では様々な複雑な統計モデルが活用されてきているが、検索アルゴリズムの高速化への活用はきわめて困難でほとんどなされてこなかった。本研究では、本研究代表者が開発し世界的にも注目されている最新アルゴリズム開発手法SMAD(Statistical Model-based Algorithm Design)を用い、複雑な統計モデルを活用して、タンパク質立体構造データベースなどの生物学データベースをはじめとした複雑な巨大データからなるデータベースにおける超高速検索の実現をめざすとともに、新たな応用開拓をめざす。 本研究でめざすSMADにおいては、大規模データのモデルをいかに抽出するか、は一つの大きな課題である。そのため、大規模データのモデルを抽出するために、いくつかの方法を行った。まず、RNAデータベースの2次構造モデルを抽出する研究を行った。この研究では、そのモデルをもとに、ランダムフォレストを用いて従来よりも高精度での機能推定を行うことにも成功している。 また、近年脚光を浴びている深層学習(deep learning)は、モデルを抽出するための枠組みと捉えることが可能である。したがって、SMADへの適用可能性を考え、それに関する研究も行った。具体的には、深層学習における深層ネットワークの重要な制御領域を判別する新たな手法を開発した。これによって、深層学習モデルの理解をより深く行うことが可能となった。 また、検索手法の応用に関して、次世代シークエンサーの出力リードがレファレンスゲノムのどこに対応するか、の検索を通し、ゲノム変異を高精度に検出するアルゴリズムの作成を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は、多様化するビッグデータ時代の巨大データに対し、巨大データゆえに見えてくるデータの統計的挙動を活用し、超高速検索を実現する技術を開発・応用することである。現在までに、大規模データからのモデル抽出技術の実現、また検索を利用した高精度なRNA機能解析の実現など、そのための基盤技術、応用研究の両面において成果を上げてきた。 まず、巨大データゆえに見えてくるデータの統計的挙動を見出すための、大規模データのモデルをいかに抽出方法について、いくつかの成果をあげている。まず、RNAデータベースの2次構造モデルを抽出するし、それにもとづいて従来よりも高精度での機能推定を行うことにも成功している。また、近年脚光を浴びている深層学習(deep learning)は、モデルを抽出するための枠組みと捉えることが可能であり、深層学習における深層ネットワークの重要な制御領域を判別する新たな手法を開発した。これによって、深層学習モデルの理解をより深く行うことが可能となった。 また、応用面に関しては、検索手法の応用に関して、次世代シークエンサーの出力リードがレファレンスゲノムのどこに対応するか、の検索を通し、ゲノム変異を高精度に検出するアルゴリズムの作成を行った。さらに、RNAに対する新たな高精度機能予測システムを構築することにも成功した。そのほか、ギャップドシード検索に基づいた新たなタンパク質機能予測アルゴリズムも開発し、従来手法とくらべて精度を落とさずに高速化することに成功している。
|
Strategy for Future Research Activity |
今後は、これまでの研究をさらに推し進め、検索の高速化、高精度化をさらに進める。さらに応用を広げてより多くの対象に対して検索と解析の高度化を図っていく。 検索に関しては、配列の検索のための索引のコンパクト化もはかる。データのモデル化が可能である、ということはそのデータは圧縮が可能である可能性を示唆するため、そのような可能性がありえる。これまで、タンパク質立体構造検索のための索引構造については、圧縮索引手法の開発を試みたが、索引自体のみを利用した場合には残念ながらあまり高い圧縮率は得られなかった。そこで、立体構造そのものの性質を活用して、より実用的な圧縮索引の開発をめざす。 また、検索については、より多くの付加価値をつけた上での検索の可能性も探る。具体的には、プライバシーを考慮したまま検索を行う場合にもSMADの技術を応用して高速化できる可能性があり、高速秘匿検索アルゴリズムについても研究を進めていく。秘匿検索の中でもアクセスを秘匿する必要がある場合には、索引を小さく持つことが高速検索につながる可能性があり、そのような高速秘匿検索の実現の可能性を探る。 応用に関しては、引き続き、網羅的な検索などに基づいた新たな機能解析アルゴリズム等の開発を進めていく。そのために、新たな深層学習のアルゴリズムの開発等をすすめていく。
|
Causes of Carryover |
本研究の成果のひとつとしている発表「Locating Controlling Regions of Neural Networks Using Constrained Evolutionary Computation」の講演・発表が本年度中ではなく、次年度6月に開催される2015 IEEE Congress on Evolutionary Computation (CEC2015)での発表を予定しており、その発表の経費に用いる予定である。 また、ウィンドウズ10の導入が近いことから、新たなPC等の購入を必要最小限にとどめている。
|
Expenditure Plan for Carryover Budget |
本研究の成果のひとつとしている発表「Locating Controlling Regions of Neural Networks Using Constrained Evolutionary Computation」の講演・発表を次年度6月に開催される2015 IEEE Congress on Evolutionary Computation (CEC2015)で行う予定であり、それに用いる予定である。 また、そのほか、ウィンドウズ10のPCを購入予定である。
|