• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実績報告書

SMADによるビッグデータ類似検索超高速化とその応用

研究課題

研究課題/領域番号 25280002
研究機関東京大学

研究代表者

渋谷 哲朗  東京大学, 医科学研究所, 准教授 (60396893)

研究期間 (年度) 2013-04-01 – 2017-03-31
キーワードアルゴリズム / データ検索 / ビッグデータ / タンパク質立体構造 / バイオインフォマティクス
研究実績の概要

本研究の目的は、多様化するビッグデータ時代の巨大データに対し、巨大データゆえに見えてくるデータの統計的挙動を活用し、超高速検索を実現する技術を開発・応用することである。これまで、巨大データからの知識発見・学習理論分野では様々な複雑な統計モデルが活用されてきているが、検索アルゴリズムの高速化への活用はきわめて困難でほとんどなされてこなかった。本研究では、本研究代表者が開発し世界的にも注目されている最新アルゴリズム開発手法SMAD(Statistical Model-based Algorithm Design)を用い、複雑な統計モデルを活用して、タンパク質立体構造データベースなどの生物学データベースをはじめとした複雑な巨大データからなるデータベースにおける超高速検索の実現をめざすとともに、新たな応用開拓をめざす。
本研究でめざすSMADにおいては、大規模データのモデルをいかに抽出するか、は一つの大きな課題である。そのため、大規模データのモデルを抽出するために、いくつかの方法を行った。まず、RNAデータベースの2次構造モデルを抽出する研究を行った。この研究では、そのモデルをもとに、ランダムフォレストを用いて従来よりも高精度での機能推定を行うことにも成功している。
また、近年脚光を浴びている深層学習(deep learning)は、モデルを抽出するための枠組みと捉えることが可能である。したがって、SMADへの適用可能性を考え、それに関する研究も行った。具体的には、深層学習における深層ネットワークの重要な制御領域を判別する新たな手法を開発した。これによって、深層学習モデルの理解をより深く行うことが可能となった。
また、検索手法の応用に関して、次世代シークエンサーの出力リードがレファレンスゲノムのどこに対応するか、の検索を通し、ゲノム変異を高精度に検出するアルゴリズムの作成を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本研究の目的は、多様化するビッグデータ時代の巨大データに対し、巨大データゆえに見えてくるデータの統計的挙動を活用し、超高速検索を実現する技術を開発・応用することである。現在までに、大規模データからのモデル抽出技術の実現、また検索を利用した高精度なRNA機能解析の実現など、そのための基盤技術、応用研究の両面において成果を上げてきた。
まず、巨大データゆえに見えてくるデータの統計的挙動を見出すための、大規模データのモデルをいかに抽出方法について、いくつかの成果をあげている。まず、RNAデータベースの2次構造モデルを抽出するし、それにもとづいて従来よりも高精度での機能推定を行うことにも成功している。また、近年脚光を浴びている深層学習(deep learning)は、モデルを抽出するための枠組みと捉えることが可能であり、深層学習における深層ネットワークの重要な制御領域を判別する新たな手法を開発した。これによって、深層学習モデルの理解をより深く行うことが可能となった。
また、応用面に関しては、検索手法の応用に関して、次世代シークエンサーの出力リードがレファレンスゲノムのどこに対応するか、の検索を通し、ゲノム変異を高精度に検出するアルゴリズムの作成を行った。さらに、RNAに対する新たな高精度機能予測システムを構築することにも成功した。そのほか、ギャップドシード検索に基づいた新たなタンパク質機能予測アルゴリズムも開発し、従来手法とくらべて精度を落とさずに高速化することに成功している。

今後の研究の推進方策

今後は、これまでの研究をさらに推し進め、検索の高速化、高精度化をさらに進める。さらに応用を広げてより多くの対象に対して検索と解析の高度化を図っていく。
検索に関しては、配列の検索のための索引のコンパクト化もはかる。データのモデル化が可能である、ということはそのデータは圧縮が可能である可能性を示唆するため、そのような可能性がありえる。これまで、タンパク質立体構造検索のための索引構造については、圧縮索引手法の開発を試みたが、索引自体のみを利用した場合には残念ながらあまり高い圧縮率は得られなかった。そこで、立体構造そのものの性質を活用して、より実用的な圧縮索引の開発をめざす。
また、検索については、より多くの付加価値をつけた上での検索の可能性も探る。具体的には、プライバシーを考慮したまま検索を行う場合にもSMADの技術を応用して高速化できる可能性があり、高速秘匿検索アルゴリズムについても研究を進めていく。秘匿検索の中でもアクセスを秘匿する必要がある場合には、索引を小さく持つことが高速検索につながる可能性があり、そのような高速秘匿検索の実現の可能性を探る。
応用に関しては、引き続き、網羅的な検索などに基づいた新たな機能解析アルゴリズム等の開発を進めていく。そのために、新たな深層学習のアルゴリズムの開発等をすすめていく。

次年度使用額が生じた理由

本研究の成果のひとつとしている発表「Locating Controlling Regions of Neural Networks Using Constrained Evolutionary Computation」の講演・発表が本年度中ではなく、次年度6月に開催される2015 IEEE Congress on Evolutionary Computation (CEC2015)での発表を予定しており、その発表の経費に用いる予定である。
また、ウィンドウズ10の導入が近いことから、新たなPC等の購入を必要最小限にとどめている。

次年度使用額の使用計画

本研究の成果のひとつとしている発表「Locating Controlling Regions of Neural Networks Using Constrained Evolutionary Computation」の講演・発表を次年度6月に開催される2015 IEEE Congress on Evolutionary Computation (CEC2015)で行う予定であり、それに用いる予定である。
また、そのほか、ウィンドウズ10のPCを購入予定である。

  • 研究成果

    (4件)

すべて 2015 2014

すべて 雑誌論文 (4件) (うち査読あり 3件)

  • [雑誌論文] Locating Controlling Regions of Neural Networks Using Constrained Evolutionary Computation2015

    • 著者名/発表者名
      Mohammad A. Eita, Tetsuo Shibuya, and Amin A. Shoukry
    • 雑誌名

      Proc. 2015 IEEE Congress on Evolutionary Computation

      巻: 印刷中 ページ: 印刷中

    • 査読あり
  • [雑誌論文] Improving miRNA Classification Using an Exhaustive Set of Features2014

    • 著者名/発表者名
      Sherin Moustafa El Gokhy, Tetsuo Shibuya and Amin Shoukry
    • 雑誌名

      Advances in Intelligent Systems and Computing

      巻: 294 ページ: 31-39

    • DOI

      10.1007/987-3-319-07581-5_4

    • 査読あり
  • [雑誌論文] VEM: a Structural Variant Estimation Method using Multi-Mapped Reads on Breakpoints2014

    • 著者名/発表者名
      Tomohiko Ohtsuki, Naoki Nariai, Kaname Kojima, Takahiro Mimori, Yukuto Sato, Yosuke Kawai, Yumi Yamaguchi-Kabata, Tetsuo Shibuya and Masao Nagasaki
    • 雑誌名

      Lecture Notes in Bioinformatics

      巻: 8542 ページ: 208-219

    • 査読あり
  • [雑誌論文] 統計モデルを活用したビッグデータ検索超高速化2014

    • 著者名/発表者名
      渋谷哲朗
    • 雑誌名

      電子情報通信学会誌

      巻: 97 ページ: 384-387

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi