2017 Fiscal Year Research-status Report
Exhaustive discovery of disease related variants by the construction of integrated analysis methods of microsatellites from genome data
Project/Area Number |
17K17590
|
Research Institution | Tohoku University |
Principal Investigator |
小島 要 東北大学, 東北メディカル・メガバンク機構, 講師 (10646988)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | ハイスループットシークエンサー / シークエンスデータ解析 / マイクロサテライト / 機械学習 |
Outline of Annual Research Achievements |
本年度はマイクロサテライト領域におけるリピート数をハイスループットシークエンサーからのデータから推定する手法の開発を行った。開発手法におけるアルゴリズムは次の2ステップからなる。1ステップ目ではBWAなどの既存のアラインメント手法でリファレンスゲノムにマッピングされたシークエンスデータに対して推定対象となるマイクロサテライト領域にアラインメントされているシークエンスデータからマイクロサテライトのパターンの候補が生成される。2ステップ目においては1ステップ目で得られたパターンの候補からシークエンスリードの生成確率が最も高くなる組み合わせを選び出し、リピート数の推定が行われる。開発手法についてJavaで実装を行い、シミュレーションデータと実データの双方で精度検証を行っている。シミュレーションデータによる精度検証ではHiSeqからのシークエンスデータを模した合成シークエンスデータを生成し、複数のマイクロサテライト領域において推定されたリピート数と真のリピート数の平均二乗誤差について既存手法との比較を行っている。実データによる精度検証ではNA12878検体に対するHiSeqからの公共シークエンスデータに対してリピート数を推定し、長鎖型シークエンサーからの公共データを用いたリピート数推定結果を正解とした平均二乗誤差について既存手法との比較を行っている。既存手法としてはlobSTRとRepeatSeqを用いているが上記の精度検証において開発手法の優位性を確認しており、現在精度検証からの知見をもとに改良を行うとともに論文化を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度はハイスループットシークエンスデータからのマイクロサテライト領域におけるリピート数の推定をより高精度に行う解析手法を開発した。これにより、マイクロサテライト領域におけるインピュテーションのためのパネル構築に向けた基礎固めを行うことができた。
|
Strategy for Future Research Activity |
本年度開発した手法における精度検証からの知見をもとに改良を進めパネル構築を行うとともに、マイクロサテライトのリピート数推定に特化したインピュテーション手法の開発に着手する予定である。
|