研究課題/領域番号 |
23710242
|
研究機関 | 新潟大学 |
研究代表者 |
阿部 貴志 新潟大学, 自然科学系, 准教授 (30390628)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | メタゲノム / 一括学習型自己組織化マップ / 連続塩基組成 / 生物系統推定 / ランダム配列 |
研究概要 |
メタゲノム解析により、全地球レベルでの生物生態系の把握を目標にした大規模解析も可能になってきた。取得されたメタゲノム配列データは新規性の高い微生物種が優占種となる場合も多く、既知微生物配列との配列相同性検索では、新規微生物種の存在を検出することが困難である。特に次世代シーケンサから産出される大量の短いメタゲノム配列データに対してはより困難となる。取得されたメタゲノム配列情報のみを使用し、環境特異的な微生物群集の構造を検出するために、着目するメタゲノム配列と各配列について1塩基組成や2連続塩基組成を保持して作成したランダム配列を混合させた一括学習型自己組織化マップ(BLSOM)解析を開発した。次世代シーケンサ由来の短いメタゲノム配列データにも対応できるよう、既知微生物3種を対象に、BSLOMでの解析条件(反映させる塩基組成やBLSOM実行時に使用する連続塩基)の検討を行い、断片化サイズ300bp、2連続塩基を反映させたランダム配列を加えた縮退4連続塩基にて、各既知微生物の80%程度をクラスタとして分離することができた。現在、メタゲノム解析で主に使用される次世代シーケンサのロシュ社GS FLX Titaniumの平均長(350bp)よりも短い配列を対象にできることから、次世代シーケンサ由来メタゲノム配列データに対しても活用できる。実データとしてGS FLX Titanium由来メタゲノム配列データを用いて検証を行ったところ、メタゲノム配列をそのランダム配列が囲むようにクラスタが形成されていた。各クラスタの生物系統を確認したところ、生物系統別にクラスタ化されていた。本手法とこれまで開発を行なってきたBLSOMによるメタゲノム配列に対する系統推定法を組み合わせることにより、ウイルスを含む既知微生物類とは類似性を示さない真に新規性の高い微生物ゲノムの検出が可能となった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は、実施計画で挙げた「生物生態系を理解するための環境特異的に生息する新規微生物ゲノム検出システムの開発」として、取得されたメタゲノム配列情報のみを使用し、環境特異的な微生物群集の構造を検出するために、着目するメタゲノム配列と各配列について1塩基組成や2連続塩基組成を保持して作成したランダム配列を混合させた一括学習型自己組織化マップ(BLSOM)解析を開発し、次世代シーケンサ由来の短いメタゲノム配列データに対しても生物系統が反映されたクラスタに分離できることを示した。本手法を活用することにより、取得されたメタゲノム配列情報のみでウイルスを含む既知微生物類とは類似性を示さない真に新規性の高い微生物ゲノムの検出が可能となった。次年度以降は、開発した解析手法をより多くの研究者が利用できるようにグラフィックインターフェースを備えたソフトウェア開発を行い、公開を目指す。また、今回開発した手法は、これまで開発してきた既知微生物全ゲノムを対象にした大規模BLSOMマップをリファレンスとし、照合することでメタゲノム配列データに対する生物系統推定法に対しても応用可能である。予備的解析を行なったところ、これまで用いてきた断片化サイズよりも短い断片化サイズで高精度に分離できる可能性が得られている。照合するための既知微生物全ゲノムのBLSOM解析に用いる断片化サイズを短くできれば、次世代シーケンサから産出された大量の短いメタゲノム配列断片に対する生物系統推定の精度向上につながる改良が可能となる。
|
今後の研究の推進方策 |
本年度は、昨年度開発した手法の更なる改良とともに、「有用遺伝子探索のためのタンパク質機能推定システムの開発」を行う。環境メタゲノム解析の目的として、科学的・産業的・医学的に有用な新規タンパク質の発掘がある。魅力的な大量情報が蓄積していながら、効率的に知識発見を行える情報解析システムが確立していないために、利用価値が低いままにデータベースに収録されている。これらの大量の機能未知タンパク質の機能推定は、ゲノム科学分野の最重要課題の一つである。連続アミノ酸の出現頻度に着目したBLSOM解析を行ったところ、タンパク質配列は機能を反映して分離・自己組織化を起こしていた。タンパク質の機能推定法として有望と考えられるが、現時点では基礎技術について論文発表をした段階である。本年度は、データベースに登録された全タンパク質を対象に3~4連続アミノ酸頻度の大規模BLSOMを作成し、大量な機能未知タンパク質の機能推定を行う。実験グループが新たに得た新規タンパク質を大規模BLSOMへマップすることで、タンパク質の機能推定が可能になる。既知公的データベースの配列を対象に実践しながら、実験グループが能率的にタンパク質の機能推定を行うための基盤技術群を整備する。環境メタゲノム資源からの有用遺伝子探索として、バイオエタノール生産や環境汚染物質の分解・除去等に役立つ既知タンパク質遺伝子類のカタログ化を行ない、メタゲノム由来タンパク質に対する機能推定を実施する。網羅的な既知有用遺伝子探索を実施することで、広い意味での「持続可能型社会への貢献が期待出来る遺伝子候補」の新規探索や新規代謝経路の推定も可能となる。
|
次年度の研究費の使用計画 |
本研究申請では、全世界で公開されている全ゲノム配列データを対象とした解析を実施する予定である。そのために、大量なゲノム配列を保持するためのディスク容量、並びに、それらを処理するための計算機資源が研究を推進してゆく上で必須である。特に、次世代シーケンサ由来のゲノム配列データの登録量の伸びは著しく、解析に必要な計算機資源、ならびにディスク容量については随時増設を行う必要がある。本年度は、ゲノム配列解析用サーバーとして、高性能なCPUと大量のメモリを持つ高性能サーバーと解析結果のバックアップを行うための大容量記憶装置の購入を予定している。
|