2013 Fiscal Year Annual Research Report
SMADによるビッグデータ類似検索超高速化とその応用
Project/Area Number |
25280002
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | The University of Tokyo |
Principal Investigator |
渋谷 哲朗 東京大学, 医科学研究所, 准教授 (60396893)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | ビッグデータ / バイオインフォマティクス / アルゴリズム / 検索 / 機械学習 |
Research Abstract |
本研究の目的は、多様化するビッグデータ時代の巨大データに対し、巨大データゆえに見えてくるデータの統計的挙動を活用し、超高速検索を実現する技術を開発・応用することである。本年度は、SMADに基づいて様々なデータベースに対し、高速化あるいは高精度化を行うためのより精密なモデル化を試み、いくつかのデータについて、高速化あるいは高精度化を達成することができた。 特にタンパク質の機能予測に関しては、その立体構造の3次元座標のみを用いるのでは、最終的な高精度機能予測などの目標を達成することは困難であり、単に三次元構造のみを扱うのではなく、アミノ酸配列の1次情報、3次元構造を抽象化した2次構造情報なども同時に検索・解析できることが望ましいため、それらの抽象度の異なるデータに対して、SMADに基づいた高速・高精度検索のモデル化を試み、高速化や高精度化などを達成することができた。まず、タンパク質立体構造の1次情報の中の大規模な網羅的高速モチーフ検索を用いて、それを機能予測につなげるための学習アルゴリズムを開発し、従来よりもはるかに高速に同等の制度の機能予測あるいはカテゴリー分類が可能であることを示すことができた。さらに、タンパク質よりも容易に2次構造を予測可能なRNAにおいて、その構造からの機能予測アルゴリズムを構築し、従来手法よりも高い精度で機能を予測できることを示した。タンパク質はRNAと同様にその構造がその機能に大きな影響を及ぼすことが知られており、タンパク質立体構造の高精度解析にもつながる成果である。また、近年用いられている次世代シークエンサーのデータはその大規模性からその解析には大規模高速検索が不可欠であるが、その高速検索は精度を犠牲にしてなされることが多い。これに対して、SMADに基づく解析から、ゲノムの構造変異をより高い精度で求める高速アルゴリズムを開発することにも成功した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画では、SMADによって高速化されたタンパク質立体構造データベース検索のさらな る高速化・高精度化を行うためのより精密なモデル化を試み、さらに機能推定へとつなげるための予備調査を行うことにしていた。さらに、それと並行して、RNA Seq などによるRNA 発現量データや、質量分析データなどの機能分析に関係の深い様々なデータベースにおいてSMADの技術を用いて検索を高速化するための基礎となる統計学的モデルの構築を行い、高速化の可能性を検討する予定であった。さらに、分子動力学シミュレーションデータベースなどでは、分子運動のモデル化によって、分子の動きの検索の高速化が可能である可能性を調査する予定であった。 本年度は、タンパク質の構造予測のための検索高速化を1次情報、2次情報について実現したものであり、さらに、RNA、次世代シークエンサーデータなど、他のデータに関してもSMADに基づいて検索高速化あるいは機能予測高精度化を達成したものであり、本年度、これらの問題に関して、十分に成果を出すことができた。また、さらに、計画では、タンパク質モーションデータに関する検索向上についても研究を行う、としていたが、これについても、モーションデータを圧縮したまま検索するアルゴリズムに関する予備的調査をほぼ終了しており、今後それをさらに発展させる予定である。
|
Strategy for Future Research Activity |
平成26年度以降は、計画の2つの柱を中心に実際の研究をさらに推し進めていく。本年度の予備的調査により、巨大データであるがゆえに従来は非常に難しいと考えられてきたモーションデータの検索について、圧縮したままの検索できる可能性が見えてきたことから、その検索可能性についてより研究を進めていく。また、統合的分子機能推定技術の確立のために、タンパク質立体構造データベースの関連データベースに関して、本年度よりもさらに重点的に研究を行う。同時に、本年度に研究したRNAや1次構造からの機能予測アルゴリズムをもとに、タンパク質立体構造データベース検索を用いた酵素活性・酵素機能等の生体分子機能推定の手法の確立も推し進めていく。こうして複数のデータベースの高速化および、タンパク質立体構造データベースを利用した機能推定アルゴリズムに目途がついた時点で、それまでに開発した手法を統合した統合的生体分子機能推定を開発し、高精度化を狙う。学習理論においては、バギング・ブースティング等をはじめとする様々な学習手法によって、互いに(なるべく)独立な異なる学習器を統合することで予測性能を大幅に向上できることが知られており、その手法の開発は学習理論分野のホットな研究分野となっているが、本研究では、「超高速検索」という新しい観点から、そのような検索が可能になって初めて可能な新たな統合的機能推定手法の確立をめざす。さらに、それぞれの大規模データベースにおいて様々なモデルの吟味を進め、検索高速化に限らず機械学習分野やデータベースが対象とする研究分野における様々な副次的な研究成果も狙っていく。
|
Expenditure Plans for the Next FY Research Funding |
本年度に予定していた海外での研究成果発表が来年度6月となったため、旅費の出費が予定よりも少なかった。その一方で、本研究に関わってもらう学生が増えたため、研究開発に用いるPC等の購入が予定よりも増えたため、物品費が増加し、差引きで次年度使用額が148,8711円発生した。 本年度の研究成果の発表が6月に予定されており、スペインにおける発表が予定されているため、その旅費等の一部として使用する予定である。研究発表は、共同研究を行ったエジプト在住のEJUST大学の学生が行う予定で、エジプトースペイン間の旅費、学会登録費、滞在費、合わせて300,000円前後を予定している。その他の使用計画については、特に変更はない。
|