2015 Fiscal Year Research-status Report
ゲノムビックデータ解析のための高速データマイニングシステムの開発
Project/Area Number |
26330327
|
Research Institution | Niigata University |
Principal Investigator |
阿部 貴志 新潟大学, 自然科学系, 准教授 (30390628)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 比較ゲノム / 一括学習型自己組織化マップ / 連続塩基 / 連続アミノ酸 / メタゲノム / 自己圧縮 |
Outline of Annual Research Achievements |
連続塩基組成や連続アミノ酸組成を基にした一括学習型自己組織化マップ(BLSOM)を開発し,大規模ゲノム配列データからの効率的な知識発見を可能とし,論文発表してきた.しかし,現在のゲノムビックデータに対応するためには,より高速化した解析手法の開発が求められている.BLSOMの可視化や分離能などの特長は損なわず,爆発的なゲノム配列データの増加に対応できる新規解析手法として,自己圧縮型BLSOM (Self-Compress BLSOM , SC-BLSOM) を開発した. 今年度は,開発したSC-BLSOMを用いて,連続塩基組成に基づくメタゲノム配列に対する生物系統推定法への適応のための条件検討を行い,SC-BLSOMは計算時間の大幅な短縮が可能であり,BLSOMでは困難であった断片化サイズや計算時間の問題も解消しつつ,従来とほぼ同等の分離能と精度が得られたことから,より大規模な生物系統推定システムとして適応可能なことが判った.さらに,アミノ酸配列中の連続アミノ酸に着目したタンパク質機能推定法の開発として,連続アミノ酸組成の距離関係のみを利用することで機能推定可能な手法の開発も行った. 今後,これまで開発してきた解析手法を基にした,メタゲノム配列に対する生物系統推定システム,ならびに,機能未知タンパク質アミノ酸配列に対する機能推定システムへの適応に向けた更なる改良とソフトウェア開発を行い,超大量ゲノム配列データからの効率的なデータマイニングシステムとしての確立を目指す.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は,BLSOMの特長を損なわずに,計算時間の短縮化を目指した新規解析手法として,開発した自己圧縮型BLSOM(SC-BLSOM)を用いて,連続塩基組成に基づくメタゲノム配列に対する生物系統推定法への適応のための条件検討を行った. 従来のBLSOMでは,断片化サイズ5kbに断片化したゲノム配列を対象にしていたが,近年産出されるメタゲノム配列は,5kb以下の配列も多く,より短く断片化した配列を基にした生物系統推定法が必要であったが,分離能と計算時間の問題もあり,実現が難しかった.しかし,SC-BLSOMは計算時間の大幅な短縮が可能であり,BLSOMでは困難であった問題も解消しつつ,より大規模な生物系統推定システムの開発が可能である. はじめに,参照用のマップの検証として,断片化サイズを含めたSC-BLSOMに適した解析条件の検証を行い,小さい断片化サイズでもBLSOMとほぼ同等以上の精度を得ることができた. また,メタゲノム配列に対する推定アルゴリズムの検証として,SC-BLSOMは各階層でのリファレンスベクトルを次の階層での入力データとしているため,各階層間で関係性が保持されており,最上位層でのマッピングのみで最下層までの分類結果を一括して取得する方法を検証し,従来法よりもより高速化できた. また,アミノ酸配列中の連続アミノ酸に着目したタンパク質機能推定法として,連続アミノ酸組成の距離関係のみを利用することで機能推定可能な手法の開発も試みた.機能既知タンパク質の大半の配列で相同性検索と同じ結果が得られ,相同性検索や機能モチーフ検索を補完する適用範囲の広いタンパク質機能推定法といえる.連続塩基や連続アミノ酸組成に着目した本手法は,相同性検索とは全く異なった原理に基づく超大規模データ解析技術としてより効率的な知識発見が可能である.
|
Strategy for Future Research Activity |
今年度は,SC-BLSOMを用いたメタゲノム配列に対する生物系統推定法,ならびに,アミノ酸配列中の連続アミノ酸に着目したタンパク質機能推定法のさらなる改良を行う.特に,大規模な検索対象に対し,より高速な推定を可能となるようにする.共に,現在公開されている全ゲノム配列,ならびに,全タンパク質を対象にした解析システムを構築し,開発手法を多くの研究者に利用してもらうべく,ソフトウェアの開発も同時に試みる. さらに,開発したSC-BLSOMを用いることで,全ゲノム情報の俯瞰的な把握を視覚的に可能である利点を活かし,水平伝播候補の検出法の開発など,大量ゲノムデータからの効率的な知識発見を目指し,更なる活用方法の検討を進めていく. これらの成果をもとに,国際会議での発表を行う予定である.
|
Causes of Carryover |
本研究申請では、次世代シークエンサーから産出される全世界で公開されている既知全生物ゲノム配列データ、ならびに、タンパク質アミノ酸配列を対象とした解析を実施する予定である。超大量な配列データを管理するための大容量のディスク、ならびに、これらを処理するための計算機資源が研究を推進してゆく上で必須である。そのため、30Tbyteを超えるディスク容量を持つデータ管理用サーバーの導入を予定していたが,今年度分は,現有機器で足りたため,次年度により大容量データシステムを購入することにしたため.
|
Expenditure Plan for Carryover Budget |
これまでの研究成果を格納するための大容量データシステムの購入と,国際会議での発表,国際誌への論文投稿を予定している.
|
Research Products
(7 results)