2016 Fiscal Year Annual Research Report
Development of a novel bioinformatics method to analyze big genome sequence data for efficient knowledge discovery
Project/Area Number |
26330327
|
Research Institution | Niigata University |
Principal Investigator |
阿部 貴志 新潟大学, 自然科学系, 准教授 (30390628)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 一括学習型自己組織化マップ / 自己圧縮 / 生物系統推定 / タンパク質機能推定 / メタゲノム |
Outline of Annual Research Achievements |
連続塩基組成や連続アミノ酸組成を基にした一括学習型自己組織化マップ(BLSOM)を開発し,大規模ゲノム配列データからの効率的な知識発見を可能とし,論文発表してきた.しかし,現在のゲノムビックデータに対応するためには,より高速化した解析手法の開発が求められている.BLSOMの可視化や分離能などの特長は損なわず,爆発的なゲノム配列データの増加に対応できる新規解析手法として,自己圧縮型BLSOM (Self-Compress BLSOM , SC-BLSOM) を開発した. 本研究課題では,開発したSC-BLSOMを用いて,メタゲノム配列に対する生物系統推定システムの構築を行った.生物系統推定には,全既知生物を対象にしたBLSOMマップが必要だが,本開発手法を用いることでより短い断片化サイズでより高速に作成可能であった.さらに,我々が発表してきた従来手法とほぼ同程度の推定精度を得ることができた. また,アミノ酸配列中の連続アミノ酸に着目し,連続アミノ酸組成の距離関係のみを利用したタンパク質機能推定手法の開発も行った.データベースに使用していない機能既知配列をテストデータとしたところ,98%のタンパク質が相同性検索と同じ結果が得られた.データベース更新に時間がかかることもなく,増加を続けるタンパク質にも容易に対応でき,相同性検索や機能モチーフ検索を補完する適用範囲の広いタンパク質の機能推定法といえる. 蓄積を続けるゲノム情報に対し,メタゲノム配列に対する生物系統推定システム,ならびに,機能未知タンパク質アミノ酸配列に対する機能推定システムなどの超大量ゲノム配列データからの効率的なデータマイニング手法を構築することで,より付加価値の高い情報を付与した知識発見が可能となりえる.
|
Research Products
(7 results)