2014 Fiscal Year Research-status Report

ゲノムビックデータ解析のための高速データマイニングシステムの開発

Research Project

Project/Area Number	26330327
Research Institution	Niigata University
Principal Investigator	阿部貴志新潟大学, 自然科学系, 准教授 (30390628)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	一括学習型自己組織化マップ / 連続塩基 / メタゲノム / 自己圧縮 / 比較ゲノム
Outline of Annual Research Achievements	連続塩基組成や連続アミノ酸組成を基にした一括学習型自己組織化マップ（BLSOM）を開発し、大規模ゲノム配列データからの効率的な知識発見を可能とし、論文発表してきた。しかし、現在のゲノムビックデータに対応するためには、より高速化した解析手法の開発が求められている。BLSOMの可視化や分離能などの特長は損なわず、爆発的なゲノム配列データの増加に対応できる新規解析手法として、自己圧縮型BLSOM (Self-Compress BLSOM , SC-BLSOM) を開発した。本手法は、入力データの分類情報に基づき、BLSOMを階層的に構築する。はじめに入力データをデータの分類によって分割し、それぞれ1階層目のBLSOMで特徴抽出しデータ数を減らす。そして1階層目のBLSOMで得られた特徴データを元に2階層目のBLSOMを行う。我々は、原核生物完全長ゲノムを用いてSC-BLSOMとBLSOMの比較した結果、SC-BLSOMは大幅に計算時間を短縮することができ、クラスタリング能力もBLSOMより強力であった。本開発手法を用いた比較ゲノム解析に関する論文を作成し、現在、国際誌に投稿中である。SC-BLSOMは大量のゲノム配列データから効率よく知識を得るためのよりふさわしい手法であると言える。今後、開発した解析手法を、これまでBLSOMで開発してきたメタゲノム配列に対する生物系統推定システム、ならびに、機能未知タンパク質アミノ酸配列に対する機能推定システムに適応し、超大量ゲノム配列データからの効率的なデータマイニングシステムとしての確立を目指す。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 今年度は、BLSOMの特長を損なわずに、計算時間の短縮化を目指した新規解析手法として、自己圧縮型BLSOM（SC-BLSOM）を開発した。BLSOMは、対象となる入力データの特徴を2次元格子点のマップ上に配置した入力データと同じ形式を持つリファレンスベクトルに反映させてクラスタリングを行う。大規模データを対象とした場合、リファレンスベクトル数は入力データ数の数分の1に設定するのが通常であり、入力データの特徴をリファレンスベクトルに要約、もしくは、圧縮していると言える。この特長を活かし、はじめに入力データを分割し、分割したデータごとにBLSOMを行ない（1階層目）、1階層目で得られた入力データの特徴が反映されたリファレンスベクトルを入力データとして利用したBLSOMを行う（2階層目）。階層構造を持つ複数のBLSOMを行うことで、元のデータの特徴を保持したまま、少ないデータ数でのBLSOMが可能になる。今年度は、超大量データに適した入力データの分割方法や各階層でのリファレンスベクトル数（圧縮率）の設定など、本開発手法に最適な解析条件の検討を行った。その結果、従来のBLSOMと同等の分解能で、計算時間は1/40と、大幅な計算時間の短縮に成功した。更に、圧縮率を高め、3層、4層と階層性を追加していくことで、計算時間の大幅な短縮が期待できる。また、実際の大量ゲノム配列データに対するSC-BLSOMの性能の検証を行うため、国際塩基配列データベースで公開されている全既知原核生物を対象に、SC-BLSOMを行った。SC-BLSOMと従来のBLSOMでは、ほぼ同等の頻度分布を示し、SC-BLSOMでも、各ゲノムの代表的なサインである、種特異的な特性(オリゴヌクレオチド頻度の主要な組み合わせ)を認識でき、比較ゲノム解析が可能であることを示した。これまでの成果を、現在、国際誌に投稿中である。
Strategy for Future Research Activity	今年度は、SC-BLSOMの更なる改善を行うとともに、SC-BLSOMを用いたメタゲノム配列に対する生物系統推定法の確立を目指す。これまで、既知生物全ゲノムを対象にした大規模BLSOMへマップすることで、メタゲノム配列に対する生物系統推定手法の開発を行い、共同研究などを通じて、実データでの研究成果を発表し、ソフトウェアも公開してきた。従来法は、メタゲノム配列には真核生物のゲノムDNAが混入している可能性が考えられるため、３つの異なる系統のBLSOMとして、全生物ドメイン（原核生物、真核生物、ウイルス、オルガネラ）を用いたKingdom-BLSOM、全原核生物を用いたPhylumレベルのProkaryote-BLSOM、各PhylumでのGenus-BLSOMを作成し、各BLSOMマップへと順次マッピングし、生物系統を絞り込んでいくことで、属や種レベルまでの推定を行う。この方式では、各BLSOM上での分類情報を取得するために個別にマッピングを行う必要があり、大量の配列データの場合、多大な計算時間を要してしまう。SC-BLSOMを用いた場合、各階層でのリファレンスベクトルを次の階層での入力データとしているため、各階層間で関係性が保持されており、最上位層でのマッピングのみで最下層までの分類結果を一括して取得でき、推定に利用できる。次世代シークエンサー由来の超大量メタゲノム配列に対する更なる高速化と推定精度の向上を目指し、マッピング方式や推定の際の判定条件など推定手順の改良を行う。さらに、提案手法を組み込んだソフトウェアの開発を試みる。
Causes of Carryover	超大量な配列データを管理するための大容量のディスク、ならびに、これらを処理するための計算機の購入を予定していたが、データ増加量の予測が難しく、購入を改めて、次年度に行うことにした。
Expenditure Plan for Carryover Budget	次世代シークエンサーから産出される全世界で公開されている既知全生物ゲノム配列データ、ならびに、タンパク質アミノ酸配列を対象とした解析を実施するため、30Tbyteを超えるディスク容量を持つデータ管理用サーバーの導入を予定している。

Research Products
(13 results)

All 2014 Other

All Journal Article (4 results) (of which Peer Reviewed: 4 results, Open Access: 4 results, Acknowledgement Compliant: 2 results) Presentation (5 results) (of which Invited: 2 results) Book (2 results) Remarks (2 results)

[Journal Article] Visualization of genome signatures of eukaryote genomes by Batch-Learning Self-Organizing Map (BLSOM) with a special emphasis on Drosophila genomes.2014
- Author(s)
  Takashi Abe, Yuta Hamao, Toshimichi Ikemura.
- Journal Title
  
  BioMed Research International
  
  Volume: 2014 Pages: 985706
- DOI
  http://dx.doi.org/10.1155/2014/985706
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Journal Article] tRNADB-CE: tRNA gene database well-timed in the era of big sequence data.2014
- Author(s)
  Takashi Abe, Hachiro Inokuchi, Yuko Yamada, Akira Muto, Yuki Iwasaki, Toshimichi Ikemura.
- Journal Title
  
  Frontiers in GENETICS
  
  Volume: 5 Pages: 114
- DOI
  10.3389/fgene.2014.00114
- Peer Reviewed / Open Access
[Journal Article] Evolutionary Changes in Vertebrate Genome Signatures with Special Focus on Coelacanth.2014
- Author(s)
  Yuki Iwasaki, Takashi Abe, Norihiro Okada, Kennosuke Wada, Yoshiko Wada, Toshimichi Ikemura.
- Journal Title
  
  DNA Research
  
  Volume: 21 Pages: 459-467
- DOI
  10.1093/dnares/dsu012
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Journal Article] Metagenomic analyses reveal the involvement of syntrophic consortia in methanol/electricity conversion in microbial fuel cells.2014
- Author(s)
  Ayaka Yamamuro, Atsushi Kouzuma, Takashi Abe, Kazuya Watanabe.
- Journal Title
  
  PLoS ONE
  
  Volume: 9 Pages: e98425
- DOI
  10.1371/journal.pone.0098425
- Peer Reviewed / Open Access
[Presentation] Development of Self-Compress BLSOM for comprehending big sequence data.2014
- Author(s)
  Akihito Kikuchi, Shigehiko Kanaya, Toshimichi Ikemura and Takashi Abe
- Organizer
  GIW2014
- Place of Presentation
  Tokyo, Japan
- Year and Date
  2014-12-15 – 2014-12-17
[Presentation] Metagenomic approaches to identify potential pathogens in ticks.2014
- Author(s)
  Ryo Nakao, Yongjin Qiu, Takashi Abe, Toshimichi Ikemura and Chihiro Sugimoto.
- Organizer
  日本遺伝学会第86回大会
- Place of Presentation
  長浜
- Year and Date
  2014-09-17 – 2014-09-19
- Invited
[Presentation] メタゲノム解析による活性汚泥中に生息する有用な微生物の探索.2014
- Author(s)
  阿部貴志, 中田俊芳, 熊谷鷹佑, 佐藤修正, 平川英樹, 近藤昭宏, 杉本千尋, 池村淑道, 松井和彦.
- Organizer
  日本遺伝学会第86回大会
- Place of Presentation
  長浜
- Year and Date
  2014-09-17 – 2014-09-19
[Presentation] メタゲノム解析を活用した新規微生物群の効率的な探索.2014
- Author(s)
  阿部貴志
- Organizer
  第157回日本獣医学会学術集会
- Place of Presentation
  札幌
- Year and Date
  2014-09-09 – 2014-09-12
- Invited
[Presentation] Tick virome analysis using a high-throughput sequencing technology.2014
- Author(s)
  Yongjin Qiu, Ryo Nakao, Takashi Abe, and Chihiro Sugimoto
- Organizer
  TTP8
- Place of Presentation
  Cape Town, South Africa
- Year and Date
  2014-08-24 – 2014-08-29
[Book] ベーシックマスター分子生物学 (東中川徹, 大山隆, 清水光弘共編)2014
- Author(s)
  池村淑道、阿部貴志
- Total Pages
  460
- Publisher
  オーム社
[Book] 生命のビックデータ利用の最前線（植田充美　監修）2014
- Author(s)
  阿部貴志, 金谷重彦, 池村淑道.
- Total Pages
  231
- Publisher
  シーエムシー出版
[Remarks] 研究室ホームページ
- URL
  http://bioinfo.ie.niigata-u.ac.jp
[Remarks] BLSOMを用いたメタゲノム配列に対する生物系統推定解析ソフトウェア
- URL
  http://bioinfo.ie.niigata-u.ac.jp/?PEMS_Soft

2014 Fiscal Year Research-status Report

ゲノムビックデータ解析のための高速データマイニングシステムの開発

Principal Investigator

阿部 貴志 新潟大学, 自然科学系, 准教授 (30390628)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Visualization of genome signatures of eukaryote genomes by Batch-Learning Self-Organizing Map (BLSOM) with a special emphasis on Drosophila genomes.2014

Author(s)

Journal Title

DOI

[Journal Article] tRNADB-CE: tRNA gene database well-timed in the era of big sequence data.2014

Author(s)

Journal Title

DOI

[Journal Article] Evolutionary Changes in Vertebrate Genome Signatures with Special Focus on Coelacanth.2014

Author(s)

Journal Title

DOI

[Journal Article] Metagenomic analyses reveal the involvement of syntrophic consortia in methanol/electricity conversion in microbial fuel cells.2014

Author(s)

Journal Title

DOI

[Presentation] Development of Self-Compress BLSOM for comprehending big sequence data.2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Metagenomic approaches to identify potential pathogens in ticks.2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] メタゲノム解析による活性汚泥中に生息する有用な微生物の探索.2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] メタゲノム解析を活用した新規微生物群の効率的な探索.2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Tick virome analysis using a high-throughput sequencing technology.2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Book] ベーシックマスター分子生物学 (東中川徹, 大山隆, 清水光弘共編)2014

Author(s)

Total Pages

Publisher

[Book] 生命のビックデータ利用の最前線（植田充美 監修）2014

Author(s)

Total Pages

Publisher

[Remarks] 研究室ホームページ

URL

[Remarks] BLSOMを用いたメタゲノム配列に対する生物系統推定解析ソフトウェア

URL

阿部貴志新潟大学, 自然科学系, 准教授 (30390628)

[Book] 生命のビックデータ利用の最前線（植田充美　監修）2014