研究領域 | パーソナルゲノム情報に基づく脳疾患メカニズムの解明 |
研究課題/領域番号 |
22129008
|
研究機関 | 東京大学 |
研究代表者 |
森下 真一 東京大学, 新領域創成科学研究科, 教授 (90292854)
|
研究分担者 |
笠原 雅弘 東京大学, 新領域創成科学研究科, 講師 (60376605)
|
研究期間 (年度) |
2010-06-23 – 2015-03-31
|
キーワード | パーソナルゲノム / 構造多型 / 塩基置換 / 疾患関連遺伝子変異 |
研究概要 |
PacBio は一分子計測で DNA 配列を解読するため15%程度の短い挿入削除が入る。この問題の解決のために2つのアプローチを試した。1つ目はPacBio リード間でエラーを補正するというアプローチである。PacBio リードをゲノムの40倍から100倍の被覆度で収集する必要があるため、バクテリア等の数百万塩基の小さなゲノムサイズを持つ生物種に対して有効であることが知られている。そこで平成25度は、線虫(ゲノムサイズ120Mb)、およびメダカ(ゲノムサイズ800Mb) 程度まで本アプローチの有効範囲を拡大した。線虫においては contig N50長で約2Mb、メダカにつては約200 kb の精度の高い配列が得られた。最終年度の平成26度は論文としてまとめ上げる。しかし高い被覆度でデータを収集することがコスト面で困難な生物種、たとえばヒトや脊椎動物においては、PacBio リードを高々30倍の被覆度で収集することが現実的である。このような大規模ゲノムを扱う場合に2つ目のアプローチとして、廉価にデータ収集が可能な長さが100塩基程度の短いIllumina リードを使ってエラーを補正することに取り組んできた。平成25度はヒトを対象にした研究を展開し被覆度30倍のデータを収集し解析をすすめた。平成26度はこれらの結果から構造多型を抽出し、論文としてまとめる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
PacBio RS IIが平成25年度から利用可能になり8000塩基長以上の長い PacBio リードを収集できるようになった。一分子計測で DNA 配列を解読するため15%程度の短い挿入削除が入るため、当初は困難が予想されたが、他のシーケンサーの配列と比較アラインメントすることで、この問題を解決することができた。そのため計画通り研究を遂行することができるようになった。また消耗品単価あたりの塩基産出量が平成25年度に4倍程度になり、研究を加速できた。
|
今後の研究の推進方策 |
PacBio RS IIが昨年度から利用可能になり8000塩基長以上の長い PacBio リードを収集できるようになった。最終年度は、長い挿入削除、逆位、染色体融合等の構造多型を精度よく検出する問題に取り組む。技術的にはランニングコストが比較的安価である Illumina HiSeq を用いたリシークエンシングにおいては、短い挿入・欠失を高精度に同定することは難しいと考えられており、大きな問題となっている。アラインメントベースの手法では、参照ゲノム配列とショットガンリードの配列の差が大きい領域においてアラインメントが不正確となることが大きな要因の一つであり、本年度は配列アセンブリと配列アラインメントを組み合わせたアルゴリズムにより短い挿入・欠失の同定精度を高める。平成26年度は最終年度であり、これらの成果をまとめ論文を投稿する。
|