2015 Fiscal Year Research-status Report

ゲノムビックデータ解析のための高速データマイニングシステムの開発

Research Project

Project/Area Number	26330327
Research Institution	Niigata University
Principal Investigator	阿部貴志新潟大学, 自然科学系, 准教授 (30390628)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	比較ゲノム / 一括学習型自己組織化マップ / 連続塩基 / 連続アミノ酸 / メタゲノム / 自己圧縮
Outline of Annual Research Achievements	連続塩基組成や連続アミノ酸組成を基にした一括学習型自己組織化マップ（BLSOM）を開発し，大規模ゲノム配列データからの効率的な知識発見を可能とし，論文発表してきた．しかし，現在のゲノムビックデータに対応するためには，より高速化した解析手法の開発が求められている．BLSOMの可視化や分離能などの特長は損なわず，爆発的なゲノム配列データの増加に対応できる新規解析手法として，自己圧縮型BLSOM (Self-Compress BLSOM , SC-BLSOM) を開発した．今年度は，開発したSC-BLSOMを用いて，連続塩基組成に基づくメタゲノム配列に対する生物系統推定法への適応のための条件検討を行い，SC-BLSOMは計算時間の大幅な短縮が可能であり，BLSOMでは困難であった断片化サイズや計算時間の問題も解消しつつ，従来とほぼ同等の分離能と精度が得られたことから，より大規模な生物系統推定システムとして適応可能なことが判った．さらに，アミノ酸配列中の連続アミノ酸に着目したタンパク質機能推定法の開発として，連続アミノ酸組成の距離関係のみを利用することで機能推定可能な手法の開発も行った．今後，これまで開発してきた解析手法を基にした，メタゲノム配列に対する生物系統推定システム，ならびに，機能未知タンパク質アミノ酸配列に対する機能推定システムへの適応に向けた更なる改良とソフトウェア開発を行い，超大量ゲノム配列データからの効率的なデータマイニングシステムとしての確立を目指す．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 今年度は，BLSOMの特長を損なわずに，計算時間の短縮化を目指した新規解析手法として，開発した自己圧縮型BLSOM（SC-BLSOM）を用いて，連続塩基組成に基づくメタゲノム配列に対する生物系統推定法への適応のための条件検討を行った．従来のBLSOMでは，断片化サイズ5kbに断片化したゲノム配列を対象にしていたが，近年産出されるメタゲノム配列は，5kb以下の配列も多く，より短く断片化した配列を基にした生物系統推定法が必要であったが，分離能と計算時間の問題もあり，実現が難しかった．しかし，SC-BLSOMは計算時間の大幅な短縮が可能であり，BLSOMでは困難であった問題も解消しつつ，より大規模な生物系統推定システムの開発が可能である．はじめに，参照用のマップの検証として，断片化サイズを含めたSC-BLSOMに適した解析条件の検証を行い，小さい断片化サイズでもBLSOMとほぼ同等以上の精度を得ることができた．　また，メタゲノム配列に対する推定アルゴリズムの検証として，SC-BLSOMは各階層でのリファレンスベクトルを次の階層での入力データとしているため，各階層間で関係性が保持されており，最上位層でのマッピングのみで最下層までの分類結果を一括して取得する方法を検証し，従来法よりもより高速化できた．また，アミノ酸配列中の連続アミノ酸に着目したタンパク質機能推定法として，連続アミノ酸組成の距離関係のみを利用することで機能推定可能な手法の開発も試みた．機能既知タンパク質の大半の配列で相同性検索と同じ結果が得られ，相同性検索や機能モチーフ検索を補完する適用範囲の広いタンパク質機能推定法といえる．連続塩基や連続アミノ酸組成に着目した本手法は，相同性検索とは全く異なった原理に基づく超大規模データ解析技術としてより効率的な知識発見が可能である．
Strategy for Future Research Activity	今年度は，SC-BLSOMを用いたメタゲノム配列に対する生物系統推定法，ならびに，アミノ酸配列中の連続アミノ酸に着目したタンパク質機能推定法のさらなる改良を行う．特に，大規模な検索対象に対し，より高速な推定を可能となるようにする．共に，現在公開されている全ゲノム配列，ならびに，全タンパク質を対象にした解析システムを構築し，開発手法を多くの研究者に利用してもらうべく，ソフトウェアの開発も同時に試みる．さらに，開発したSC-BLSOMを用いることで，全ゲノム情報の俯瞰的な把握を視覚的に可能である利点を活かし，水平伝播候補の検出法の開発など，大量ゲノムデータからの効率的な知識発見を目指し，更なる活用方法の検討を進めていく．これらの成果をもとに，国際会議での発表を行う予定である．
Causes of Carryover	本研究申請では、次世代シークエンサーから産出される全世界で公開されている既知全生物ゲノム配列データ、ならびに、タンパク質アミノ酸配列を対象とした解析を実施する予定である。超大量な配列データを管理するための大容量のディスク、ならびに、これらを処理するための計算機資源が研究を推進してゆく上で必須である。そのため、30Tbyteを超えるディスク容量を持つデータ管理用サーバーの導入を予定していたが，今年度分は，現有機器で足りたため，次年度により大容量データシステムを購入することにしたため．
Expenditure Plan for Carryover Budget	これまでの研究成果を格納するための大容量データシステムの購入と，国際会議での発表，国際誌への論文投稿を予定している．

Research Products
(7 results)

All 2016 2015 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results, Acknowledgement Compliant: 1 results) Presentation (4 results) (of which Invited: 1 results) Remarks (2 results)

[Journal Article] Development of Self-Compressing BLSOM for Comprehensive Analysis of Big Sequence Data.2015
- Author(s)
  Akihito Kikuchi, Toshimichi Ikemura, and Takashi Abe.
- Journal Title
  
  BioMed Research International
  
  Volume: 2015 Pages: 506052
- DOI
  http://dx.doi.org/10.1155/2015/506052
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Presentation] A bioinformatics analysis for efficient knowledge discovery from big sequence data with BLSOM2016
- Author(s)
  阿部貴志
- Organizer
  第89回日本細菌学会総会
- Place of Presentation
  大阪国際交流センター
- Year and Date
  2016-03-23 – 2016-03-25
- Invited
[Presentation] BLSOM解析による微生物の南極環境への適応戦略の解明2016
- Author(s)
  阿部貴志，中道真喜，吉田惇一郎，仁木宏典，馬場知哉．
- Organizer
  第10回日本ゲノム微生物学会年会
- Place of Presentation
  東京工業大学
- Year and Date
  2016-03-04 – 2016-03-05
[Presentation] 自己圧縮BLSOM（一括学習型自己組織化マップ）による水平伝播領域検出法の開発．2015
- Author(s)
  松本光司，菊池亮仁，池村淑道，阿部貴志．
- Organizer
  日本遺伝学会第87回大会
- Place of Presentation
  東北大学
- Year and Date
  2015-09-24 – 2015-09-26
[Presentation] オリゴペプチド組成類似性に基づく機能未知のタンパク質の機能推定法の確立．2015
- Author(s)
  五十嵐諒，池村淑道，阿部貴志．
- Organizer
  日本遺伝学会第87回大会
- Place of Presentation
  東北大学
- Year and Date
  2015-09-24 – 2015-09-26
[Remarks] 新潟大学工学部情報工学科バイオインフォマティクス研究室
- URL
  http://bioinfo.ie.niigata-u.ac.jp
[Remarks] ソフトウェアPEMS公開サイト
- URL
  http://bioinfo.ie.niigata-u.ac.jp/?PEMS_Soft

2015 Fiscal Year Research-status Report

ゲノムビックデータ解析のための高速データマイニングシステムの開発

Principal Investigator

阿部 貴志 新潟大学, 自然科学系, 准教授 (30390628)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Development of Self-Compressing BLSOM for Comprehensive Analysis of Big Sequence Data.2015

Author(s)

Journal Title

DOI

[Presentation] A bioinformatics analysis for efficient knowledge discovery from big sequence data with BLSOM2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] BLSOM解析による微生物の南極環境への適応戦略の解明2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 自己圧縮BLSOM（一括学習型自己組織化マップ）による水平伝播領域検出法の開発．2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] オリゴペプチド組成類似性に基づく機能未知のタンパク質の機能推定法の確立．2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks] 新潟大学工学部情報工学科バイオインフォマティクス研究室

URL

[Remarks] ソフトウェアPEMS公開サイト

URL

阿部貴志新潟大学, 自然科学系, 准教授 (30390628)