研究課題/領域番号 |
23710242
|
研究機関 | 新潟大学 |
研究代表者 |
阿部 貴志 新潟大学, 自然科学系, 准教授 (30390628)
|
キーワード | メタゲノム / 一括学習型自己組織化マップ / 連続塩基 / 生物系統推定 / タンパク質機能推定 / ランダム配列 |
研究概要 |
メタゲノム解析により、全地球レベルでの生物生態系の把握を目標にした大規模解析も可能になってきた。メタゲノム配列データは新規性の高い微生物種が優占種となる場合も多く、既知微生物配列との配列相同性検索では、新規微生物種の存在を検出することが困難である。一括学習型自己組織化マップ(BLSOM)を用いて、連続塩基頻度のみに着目することでゲノム断片配列の大半を生物種ごとに高精度に分類できる知見を基に、既知微生物を対象にしたBLSOM解析結果にメタゲノム配列を照合することで、生物系統が推定できる手法を開発してきた。本手法を組み込んだソフトウェアを公開した。しかし、300塩基以上のメタゲノム配列を想定した手法であり、次世代シーケンサから産出される大量の短いメタゲノム配列 (100~300 塩基程度) に対しては、照合の際の正規化に伴うエラーが生じやすく、生物系統推定の精度が低下する。今年度は、短いメタゲノム配列に対しても高精度な生物系統推定法の確立を目指し、照合用として作成する既知生物ゲノムを対象にしたBLSOM解析の分解能の向上に向けた連続塩基配列組成計算法の開発を行った。照合用BLSOM解析での断片化サイズを短くすることが可能となり、大量の短いメタゲノム配列に対する生物系統推定の精度向上が可能となった。さらに、有用遺伝子探索のためのタンパク質機能推定システムの開発として、データベースに登録された全タンパク質を対象に2連続アミノ酸頻度を用いた大規模BLSOMをスーパーコンピュータで作成し、大量な機能未知タンパク質の機能推定を行った。植物由来の2次代謝関連酵素タンパク質を対象に、作成した大規模BLSOMへマップすることで、タンパク質の機能推定が可能なことを検証した。機能未知タンパク質への機能推定をシステマティックに行うことが可能であり、環境メタゲノム資源からの有用遺伝子探索に有用である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度は、実施計画で挙げた「新規微生物ゲノム検出システムの開発」として、前年度の知見を用いて、短いメタゲノム配列に対しても高精度な生物系統推定法の確立を目指し、照合用として作成する既知生物ゲノムを対象にしたBLSOM解析にて、ゲノム配列断片の4連続塩基頻度計算時に1塩基や2連続塩基組成を考慮し、短いゲノム配列断片でも生物種ごとに高精度に分離可能な連続塩基配列組成計算法の開発し、照合用のBLSOM解析に用いる断片化サイズの検証を行った。原核生物完全長ゲノム808種を対象に、ゲノム配列断片の4連続塩基の実測値とゲノム配列中の1塩基組成から算出された期待値の比を用いてBLSOM解析を行うことで、断片化サイズ2.5kbでも断片化サイズ5kbと同等以上の分解能が得られた。照合するための既知生物全ゲノムのBLSOM解析に用いる断片化サイズを短くすることが可能となり、短いメタゲノム配列に対する生物系統推定の精度向上が可能となった。 また、「タンパク質機能推定システムの開発」として、データベースに登録された全タンパク質を対象に2連続アミノ酸頻度を用いた大規模BLSOMをスーパーコンピュータで作成し、大量な機能未知タンパク質の機能推定を行った。植物由来の2次代謝関連酵素タンパク質を対象に、作成したBLSOMマップへ各々のアミノ酸配列をマップしたところ、酵素タンパク質ごとにクラスターが形成され、機能ごとにクラスターが形成されていた領域には、既知未知な植物由来タンパク質も多く含まれており、それらが2次代謝関連酵素としての機能を持つ可能性が高いことを示した。本手法を用いることで、大量に蓄積されるタンパク質アミノ酸配列群に対し、機能既知タンパク質類の特徴抽出、ならびに、機能未知タンパク質への機能推定をシステマティックに行うことが可能である。
|
今後の研究の推進方策 |
今年度は、これまで開発を行なってきた「BLSOMを活用した微生物生態系理解のための新規微生物ゲノムの探索法」と「有用遺伝子探索のためのタンパク質機能推定法」のさらなる改良、ならびに、実際のメタゲノム配列データを用いた実践的な解析を目指すと共に、これらを融合させた環境メタゲノム資源からのBLSOMを活用した効率的な知識発見システムの開発を目指す。 未知微生物の特徴付けには、既知生物種の全体の特徴抽出を行う必要があり、その時点で知られている全ゲノム配列を用いたBLSOMを作成し、年間で一回以上の更新と公開している系統推定ソフトウェアPEMS(Phylogenetic Estimation of Metagenomic seuence using BLSOM)で利用できるBLSOMマップの公開を行う。研究者個人がPCレベルの計算機で興味のあるメタゲノム配列からの生物系統推定やタンパク質の機能推定を行い、メタゲノム配列からの効率的な知識発見が可能となる。さらに、環境メタゲノム資源からの有用遺伝子探索として、バイオエタノール生産や環境汚染物質の分解・除去等に役立つ既知タンパク質遺伝子類のカタログ化を行ない、メタゲノム由来タンパク質に対する機能推定と生物系統推定を実施する。網羅的な既知有用遺伝子探索を実施することで、広い意味での「持続可能型社会への貢献が期待出来る遺伝子候補」の新規探索や新規代謝経路の推定も可能となり、環境メタゲノム資源からの効率的な知識発見を行うために必要、かつ世界的に類例の無い大規模情報の提供が可能となる。
|
次年度の研究費の使用計画 |
本研究申請では、全世界で公開されている全ゲノム配列データを対象とした解析を実施する予定である。そのために、大量なゲノム配列を保持するためのディスク容量、並びに、それらを処理するための計算機資源が研究を推進してゆく上で必須である。特に、次世代シーケンサ由来のゲノム配列データの登録量の伸びは著しく、解析に必要な計算機資源、ならびにディスク容量については随時増設を行う必要がある。 本年度は、国内外での成果発表に加え、ゲノム配列解析用サーバーとして、高性能なCPUと大量のメモリを持つ高性能サーバーと解析結果のバックアップを行うための大容量記憶装置の購入を予定している。
|