2019 Fiscal Year Annual Research Report
NGSデータからの相同組換え位置特定アルゴリズムの開発および遺伝情報との関連解析
Project/Area Number |
19H03206
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | ゲノム情報解析 / 相同組換え |
Outline of Annual Research Achievements |
本研究では、各種真核生物において相同組換えの位置を網羅的に特定し、その結果を基盤とした相同組換えに関する新たな研究展開を図ることを目的としている。本年度は目的を実現するための第一段階として、ゲノム上で相同組換えの位置を塩基レベルで網羅的に特定する新規解析手法の開発及び、ターゲットとなる実データの取得を実施した。 まず、提案者らが開発したPlatanus-alleeアセンブラをベースとし、Illuminaショートリードによる全ゲノムショットガンデータから、網羅的な組換え位置検出プログラムのプロトタイプ開発を実施した。開発されているアセンブラでは、pair-endリードから抽出された部分文字列(k-mer)をノードとしたgraph構造を解き、リードのpairリンク情報を用いて連鎖を解決することによってハプロタイプごとのゲノム構築アセンブルを実現している。この際、diploidを仮定し、シークエンスカバレッジより、一定頻度よりも低いk-mer, pairリンクはシークエンスエラーに起因するとし、アセンブルには用いていない。この用いていないエラー由来と判定されたデータ中に、頻度は低いものの組換えにより生じたパスが存在すると考えられる。そこで、従来通り一旦頻度の高いパスのみで両アレル由来の並行するグラフを構築後、閾値を下回った頻度のパスを構築したグラフ上にマッピングすることによりクロス構造を同定するアルゴリズムを実装した。開発に当たっては、線虫ゲノムを元にシミュレーションにより作成されたリードに対して、0.5-2.0%程度の組換え頻度で計算機上組換えたデータを加えることにより実施した。 また、解析に用いるための実データとしてヘテロ接合度が比較的高く、生殖細胞が容易に手に入るイトマキヒトデを一つのターゲットとし、Illumina PE, MPのフルセットのデータを産出した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は期初に予定していた、Illumina pair-end, mate-pairリードを入力とした相同組換え位置検出プロトタイプ開発を実施し、シミュレーションデータを用いた結果において検出に成功している。また、実サンプルデータの取得もイトマキヒトデ3個体の精巣からのDNA抽出、Illumina pair-end, mate-pairシークエンスが終了していることから順調に推移しているとの判断とした。しかし、実データでの検証にはある程度の「正解」が分かっている酵母などの生物種からのデータ取得を、しかも組換えの検証が可能な形のデータとして取得が不可欠であり、今後一層の工夫が必要である。
|
Strategy for Future Research Activity |
次年度以降の予定としては、まず本年度開発したプロトタイプシステムを様々なシミュレーション・実データに適用することで問題点を洗い出し、改良を加える。現時点では、Illuminaの高精度pair-end, mate-pairデータの利用を前提としたアルゴリズムとなっているが、このアルゴリズムが精度良く働くためには、mate-pairライブラリが構築できる15kb以内に相同染色体間にSNVがある程度の頻度で存在することが必須であり、高ヘテロ接合度の生物種に限られてしまう問題点がある。 この問題を解決するために、次年度以降はPacBio(CLR, HiFi), NanoporeなどのLongreadの活用も検討し、アルゴリズムへの組み込みを図る。これらのデータはIlluminaデータよりも高いエラー率が想定されるため、この問題に対処することが最大の鍵となる。 また開発したプログラムを実サンプルに適用することで、網羅的な相同組換え情報の取得を実施も並行して進める予定である。まず初めにはSpo11などとの関連から比較的組換え位置に関する情報が揃っている出芽酵母に関し、親株および形成させた胞子をpoolしたサンプルとの比較解析を実施する予定である。解析に当たっては、まずは相同染色体間に適度なSNVが存在することが望ましいため、別株間のハイブリッドなどを作成してから実験に当たることを想定している。Illumina pair-end, mate-pairに加えてNanoporeなどLongreadデータの取得も試みる。これらのデータを元に、開発したアルゴリズムにより組換え位置候補を抽出し、すでに知られている組換え位置情報などと照らし合わせることで、アルゴリズムの精度向上などを進める予定である。
|
Research Products
(2 results)