2017 Fiscal Year Research-status Report
Construction of high-dimensional Japanese genome reference sequences suitable for the search for disease-associated mutations
Project/Area Number |
17K07255
|
Research Institution | Kyoto University |
Principal Investigator |
日笠 幸一郎 京都大学, スーパーグローバルコース医学生命系ユニット, 特定准教授 (10419583)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | ヒトゲノム構造多様性 |
Outline of Annual Research Achievements |
高精度の日本人ゲノム参照配列を構築するため、ヒトハプロイドゲノムである全胞状奇胎のDNAを抽出し、アレイを用いた網羅的SNPタイピングを実施した。タイピング結果を用いて主成分分析を行い、日本人由来のハプロイドゲノムであることを確認した。本検体から、1)PCR、2)PCR-free、3)10kb mate-pair、4)3kb mate-pair、計4種類のDNA断片ライブラリを作成し、それぞれヒトゲノムの54倍、45倍、19倍、55倍のカバレージで次世代シークエンサーによるシークエンス解析を実施した。1)PCR、2)PCR-free、3)PCR+PCR freeの3種類のシークエンスデータセットについて、ヒトゲノムの新規構築(De novoアセンブリ)を試みたところ、いずれのデータセットにおいても全長約2.7Gbのヒトゲノムが構築された。構築されたゲノム配列の完全性の指標となるコンティグのN50値はそれぞれ、60kb、97kb、83kbであり、PCR-freeを用いたアセンブリが最も効率良くアセンブリ可能であることが分かった。また、mate-pairを用いたコンティグの結合後に構築された参照配列は、N50値8.3Mbに至った。今回胞状奇胎の解析から得られたN50値は、過去に実施されたヒトゲノムのde novoアセンブリから得られた値を大きく上回る値であることから、ヒトゲノムの参照配列を新規に構築する上で、ヒトハプロイドゲノムである胞状奇胎の利用は精度的にも効率的にも極めて適していることが証明された。一方で、参照配列の高次元化に利用する全ゲノム情報については、既に全ゲノムシークエンスが終了している2,000検体のデータのうち1,000検体についてゲノム解析が終了し、日本人の遺伝的多様性を網羅した参照配列の構築に必要なゲノム上の変異情報を収集した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
全胞状奇胎のDNAを抽出し、アレイを用いた網羅的SNPタイピングを実施した。タイピング結果を用いて主成分分析を行い、日本人由来のハプロイドゲノムであることを確認した。本検体から、1)PCR、2)PCR-free、3)10kb mate-pair、4)3kb mate-pair、計4種類のDNA断片ライブラリを作成し、それぞれヒトゲノムの54倍、45倍、19倍、55倍のカバレージで次世代シークエンサーによるシークエンス解析を実施した。1)PCR、2)PCR-free、3)PCR+PCR freeの3種類のシークエンスデータセットについて、ヒトゲノムの新規構築(De novoアセンブリ)を実施したところ、いずれのデータセットにおいても全長約2.7Gbのヒトゲノムが構築された。構築されたゲノム配列の完全性の指標となるコンティグ(連続したDNA配列)のN50値はそれぞれ、60kb、97kb、83kbであり、PCR-freeを用いたアセンブリが最も効率良くアセンブリ可能であることが分かった。また、mate-pairを用いたコンティグの結合(スキャフォールド)後に構築された参照配列は、N50値8.3Mbに至った。今回胞状奇胎の解析から得られたN50値は、過去に実施されたヒトゲノムのde novoアセンブリから得られた値を大きく上回る値であることから、ヒトゲノムの参照配列を新規に構築する上で、ヒトハプロイドゲノムである胞状奇胎の利用は精度的にも効率的にも極めて適していることが証明された。一方で、参照配列の高次元化に利用する全ゲノム情報については、既に全ゲノムシークエンスが終了している2,000検体のデータのうち1,000検体についてゲノム解析が終了し、グラフ構造の作成に必要なゲノム上の変異情報(構造変異を含む)を収集した。
|
Strategy for Future Research Activity |
本年度の研究により、ヒトゲノムの参照配列を新規に構築する上で、ヒトハプロイドゲノムである胞状奇胎の利用は精度的にも効率的にも極めて適していることが判明したため、更に高精度のヒトゲノム参照配列の構築を目指し、第3世代のシークエンサーPacBioシステムおよび10X genomicsのGemCode技術を用いて長鎖のシークエンスデータを追加する予定である。これらのデータを現在までに構築している参照配列に取り込むことで、精度やN50値の更なる向上が見込まれる。高次元化に利用する全ゲノム情報については、未解析の約2,000検体のゲノム解析を進め、日本人ゲノム多様性情報についてのカタログ化を進める。
|
Causes of Carryover |
当該年度の研究により、全胞状奇胎を用いた新規の日本人参照配列(De novo assembly)が、予想を上回る高い精度で構築可能であることが分かったため、更なる精度の向上を目指して、長鎖のシークエンスデータを増やすことにした。そのデータ量の拡充に伴うアセンブリ計算量の増加が見込まれたため、より大きなストレージとスペックの高い計算機の購入が必要となった。従って、当該年度はデータ収集に注力することで研究経費を節約し、翌年度の予算と合わせて解析に必要な上位スペックの計算機を購入する計画にした。本対応により、日本人の高精度参照配列の構築に向けて、より一層の進展が期待される。
|
Research Products
(2 results)