2014 Fiscal Year Research-status Report
ゲノムビックデータ解析のための高速データマイニングシステムの開発
Project/Area Number |
26330327
|
Research Institution | Niigata University |
Principal Investigator |
阿部 貴志 新潟大学, 自然科学系, 准教授 (30390628)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 一括学習型自己組織化マップ / 連続塩基 / メタゲノム / 自己圧縮 / 比較ゲノム |
Outline of Annual Research Achievements |
連続塩基組成や連続アミノ酸組成を基にした一括学習型自己組織化マップ(BLSOM)を開発し、大規模ゲノム配列データからの効率的な知識発見を可能とし、論文発表してきた。しかし、現在のゲノムビックデータに対応するためには、より高速化した解析手法の開発が求められている。BLSOMの可視化や分離能などの特長は損なわず、爆発的なゲノム配列データの増加に対応できる新規解析手法として、自己圧縮型BLSOM (Self-Compress BLSOM , SC-BLSOM) を開発した。本手法は、入力データの分類情報に基づき、BLSOMを階層的に構築する。はじめに入力データをデータの分類によって分割し、それぞれ1階層目のBLSOMで特徴抽出しデータ数を減らす。そして1階層目のBLSOMで得られた特徴データを元に2階層目のBLSOMを行う。我々は、原核生物完全長ゲノムを用いてSC-BLSOMとBLSOMの比較した結果、SC-BLSOMは大幅に計算時間を短縮することができ、クラスタリング能力もBLSOMより強力であった。本開発手法を用いた比較ゲノム解析に関する論文を作成し、現在、国際誌に投稿中である。SC-BLSOMは大量のゲノム配列データから効率よく知識を得るためのよりふさわしい手法であると言える。 今後、開発した解析手法を、これまでBLSOMで開発してきたメタゲノム配列に対する生物系統推定システム、ならびに、機能未知タンパク質アミノ酸配列に対する機能推定システムに適応し、超大量ゲノム配列データからの効率的なデータマイニングシステムとしての確立を目指す。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は、BLSOMの特長を損なわずに、計算時間の短縮化を目指した新規解析手法として、自己圧縮型BLSOM(SC-BLSOM)を開発した。BLSOMは、対象となる入力データの特徴を2次元格子点のマップ上に配置した入力データと同じ形式を持つリファレンスベクトルに反映させてクラスタリングを行う。大規模データを対象とした場合、リファレンスベクトル数は入力データ数の数分の1に設定するのが通常であり、入力データの特徴をリファレンスベクトルに要約、もしくは、圧縮していると言える。この特長を活かし、はじめに入力データを分割し、分割したデータごとにBLSOMを行ない(1階層目)、1階層目で得られた入力データの特徴が反映されたリファレンスベクトルを入力データとして利用したBLSOMを行う(2階層目)。階層構造を持つ複数のBLSOMを行うことで、元のデータの特徴を保持したまま、少ないデータ数でのBLSOMが可能になる。 今年度は、超大量データに適した入力データの分割方法や各階層でのリファレンスベクトル数(圧縮率)の設定など、本開発手法に最適な解析条件の検討を行った。その結果、従来のBLSOMと同等の分解能で、計算時間は1/40と、大幅な計算時間の短縮に成功した。更に、圧縮率を高め、3層、4層と階層性を追加していくことで、計算時間の大幅な短縮が期待できる。 また、実際の大量ゲノム配列データに対するSC-BLSOMの性能の検証を行うため、国際塩基配列データベースで公開されている全既知原核生物を対象に、SC-BLSOMを行った。SC-BLSOMと従来のBLSOMでは、ほぼ同等の頻度分布を示し、SC-BLSOMでも、各ゲノムの代表的なサインである、種特異的な特性(オリゴヌクレオチド頻度の主要な組み合わせ)を認識でき、比較ゲノム解析が可能であることを示した。これまでの成果を、現在、国際誌に投稿中である。
|
Strategy for Future Research Activity |
今年度は、SC-BLSOMの更なる改善を行うとともに、SC-BLSOMを用いたメタゲノム配列に対する生物系統推定法の確立を目指す。これまで、既知生物全ゲノムを対象にした大規模BLSOMへマップすることで、メタゲノム配列に対する生物系統推定手法の開発を行い、共同研究などを通じて、実データでの研究成果を発表し、ソフトウェアも公開してきた。従来法は、メタゲノム配列には真核生物のゲノムDNAが混入している可能性が考えられるため、3つの異なる系統のBLSOMとして、全生物ドメイン(原核生物、真核生物、ウイルス、オルガネラ)を用いたKingdom-BLSOM、全原核生物を用いたPhylumレベルのProkaryote-BLSOM、各PhylumでのGenus-BLSOMを作成し、各BLSOMマップへと順次マッピングし、生物系統を絞り込んでいくことで、属や種レベルまでの推定を行う。この方式では、各BLSOM上での分類情報を取得するために個別にマッピングを行う必要があり、大量の配列データの場合、多大な計算時間を要してしまう。SC-BLSOMを用いた場合、各階層でのリファレンスベクトルを次の階層での入力データとしているため、各階層間で関係性が保持されており、最上位層でのマッピングのみで最下層までの分類結果を一括して取得でき、推定に利用できる。次世代シークエンサー由来の超大量メタゲノム配列に対する更なる高速化と推定精度の向上を目指し、マッピング方式や推定の際の判定条件など推定手順の改良を行う。さらに、提案手法を組み込んだソフトウェアの開発を試みる。
|
Causes of Carryover |
超大量な配列データを管理するための大容量のディスク、ならびに、これらを処理するための計算機の購入を予定していたが、データ増加量の予測が難しく、購入を改めて、次年度に行うことにした。
|
Expenditure Plan for Carryover Budget |
次世代シークエンサーから産出される全世界で公開されている既知全生物ゲノム配列データ、ならびに、タンパク質アミノ酸配列を対象とした解析を実施するため、30Tbyteを超えるディスク容量を持つデータ管理用サーバーの導入を予定している。
|
Research Products
(13 results)