2013 Fiscal Year Research-status Report
Project/Area Number |
24510286
|
Research Institution | Kazusa DNA Research Institute |
Principal Investigator |
平川 英樹 公益財団法人かずさDNA研究所, 植物ゲノム研究部, 主任研究員 (80372746)
|
Keywords | SNP解析 / バイオインフォマティクス / データベース |
Research Abstract |
作物の品種間の形質の違いと遺伝子型との関係を明らかにするために、本研究では、トマトを対象として品種間のSNPを検出し、それらが遺伝子機能に与える影響を調べる。そこで、NCBIのdbESTデータベースからトマトのEST配列を入手し、トマトゲノム配列SL2.40に対するマッピングにより検出されたSNPをゲノム上の位置に基づき8種類に分類する解析プログラムを作成した。現在、次世代シークエンサーにより得られたリードを用いてSNP解析を行うプログラムが整備されてきている。そこで、本年度は解析手法を見直し、マッピングにはTopHat、マップ領域の抽出にはBEDtools、SNP抽出にはSAMtoolsを用い、SNPのアノテーション(SNPの位置に基づく分類)にはSnpEffを用いた。dbESTのバージョンは195に更新し、トマト44系統、294,048本のEST配列を対象とし、TopHatによりマッピングした結果、145,880本(49.6%)がマップされ、38,684箇所のSNPが検出された。SNPの数が最も多かった品種はTA496(加工用;108,440本のうち17,654本(16.3%)がマップ)であり、次いでMicro-Tom(矮性;118,119本のうち10,034本(8.5%))であった。検出されたSNPのゲノム上の位置を元に、SnpEffを用いてエキソン、イントロン、5’ UTR、3’ UTR、その他に分類し、エキソン上のSNPについては同義置換(Synonym)か非同義置換(Non-synonym)かを調べた。さらに、マッピングの精度(QUAL)、厚み(DP)、リファレンス(REF)とマッピング対象(ALT)の順鎖方向と逆鎖方向の厚み(DP4)を全系統に対して集計した表を作成した。これらの一連の解析をパイプライン化することで、今後のデータ更新に対応できるようにした。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
初年度は、EST配列をマッピングした後にゲノム配列上のSNPの位置に基づき、mSNP(Nonsynonymous)、nSNP(Nonsense)、sSNP(Synonymous)、duSNP(3’UTR)、ruSNP(5’UTR)、ijSNP(エキソンの上下流2Kb以内)、gSNP(ゲノム領域)、iSNP(イントロン)の8種に分類するプログラムを自作した。現在、SNP検出のプログラムが整備されており、その中でも標準的に使われているプログラムを本研究に取り入れることにした。本年度は、対象とした全系統に対するTopHatによるマッピング、SAMtoolsによるSNP抽出、SnpEffによるSNPアノテーションを実施し、得られた全ての系統間のSNPを一つの表にまとめるスクリプトを作成した。なお、SNPアノテーションでは、遺伝子モデルにはITAG2.3のものを用い、SNPはエキソン、イントロン、5’ UTR、3’ UTR、それ以外に分類した。これらの一連の解析を行うスクリプトを構築したことでデータの更新に対応できるようになった。さらに、「機能情報をもつ(機能と関連性が深い)SNP」を調べるため、トマトの全遺伝子に対してNCBIのKOGデータベース、KEGGのGENESに対するホモロジー検索、Pfamデータベースに対するドメイン検索を実施し機能推定を行った。GO(Gene Ontology)についてはSL2.40のITAG2.3に記載されている情報を用いた。SNPが活性に直接的に影響を与えるかを調べるため、全遺伝子に対してModellerを用いてホモロジーモデリングを行い、FPocketを用いて活性部位を推定した。これらの解析は当初の予定通りに実施しており計画通りである。
|
Strategy for Future Research Activity |
これまでの解析により、トマトの全系統におけるSNPを一つの表に集約することができたため、今後は、この表にKOGによる機能分類、KEGGの代謝経路情報、Pfamドメイン情報、立体構造に基づく活性部位情報を追記し、遺伝子機能との関連性を詳しく調べることで「機能情報をもつ(機能と関連性が深い)SNP」を推定する。本研究で得られた「機能情報をもつSNP」に関する情報は、データベース上で公開する。また、これまでに得られているGoldenGateやInfiniumといったビーズアレイ(Hirakawa et al., 2013, DNA research, 20, 221-233)やSOLiDによるリシークエンス解析により得られたSNP(Shirasawa et al., 2013, DNA Research, 20, 593-603)との対応関係を調べる。また、SGNが公開しているトマトの果実の色・硬さ・重み、芳香成分といった形質についての連鎖地図上のQTLとの対応関係を調べる。これによりQTLの主体となる遺伝子を同定し表現型に関連が深い遺伝子として推定する。本研究において実施したSNPアノテーションの手法はトマトに限らず、他の作物に対しても適用できる。また、dbESTのみならず、次世代シークエンサーのデータについても適用できるため、NCBIのSRA(Sequence Read Archive)に登録されているトマトのデータを用いることでより精度の高いSNP情報を得ることができる。本解析手法により、多様な植物種について形質に関連がある遺伝子を推定できるようになることが期待される。
|
Expenditure Plans for the Next FY Research Funding |
本年度は解析手法の確立を目指したため、大容量のデータを産出することは無かった。このため、当初予定していたストレージの購入は見送った。本年度で手法を確立することができたため、次年度は高速計算機サーバを導入し、さらにはハードディスクの増設を検討したい。 次年度は、これまでの解析により得られたdbESTの配列やマッピング解析の結果、KOGやKEGG、Pfamなどの各種データベースに対するホモロジー検索やドメイン検索の結果、立体構造の推定により得られたタンパク質の立体構造データや活性部位データ、SGNから入手した連鎖地図やQTLデータといった膨大な量のデータを保存するため、大容量のハードディスクを搭載し、かつ、高速なCPUをもつLinuxサーバを購入する。また、NCBIのSRAからトマトの次世代シークエンサーによる配列データを入手し、同様の解析を実施することで、より大量のSNPを検出するため、ハードディスクが不足した場合には外付けのハードディスクもしくはネットワークストレージ(NAS)の購入を検討する。また、本解析から得られた結果を論文発表や学会発表を通じて公開するために研究費を使用する。
|