研究課題/領域番号 |
17K17590
|
研究機関 | 東北大学 |
研究代表者 |
小島 要 東北大学, 東北メディカル・メガバンク機構, 講師 (10646988)
|
研究期間 (年度) |
2017-04-01 – 2019-03-31
|
キーワード | ハイスループットシークエンサー / シークエンスデータ解析 / マイクロサテライト / 機械学習 |
研究実績の概要 |
本年度はマイクロサテライト領域におけるリピート数をハイスループットシークエンサーからのデータから推定する手法の開発を行った。開発手法におけるアルゴリズムは次の2ステップからなる。1ステップ目ではBWAなどの既存のアラインメント手法でリファレンスゲノムにマッピングされたシークエンスデータに対して推定対象となるマイクロサテライト領域にアラインメントされているシークエンスデータからマイクロサテライトのパターンの候補が生成される。2ステップ目においては1ステップ目で得られたパターンの候補からシークエンスリードの生成確率が最も高くなる組み合わせを選び出し、リピート数の推定が行われる。開発手法についてJavaで実装を行い、シミュレーションデータと実データの双方で精度検証を行っている。シミュレーションデータによる精度検証ではHiSeqからのシークエンスデータを模した合成シークエンスデータを生成し、複数のマイクロサテライト領域において推定されたリピート数と真のリピート数の平均二乗誤差について既存手法との比較を行っている。実データによる精度検証ではNA12878検体に対するHiSeqからの公共シークエンスデータに対してリピート数を推定し、長鎖型シークエンサーからの公共データを用いたリピート数推定結果を正解とした平均二乗誤差について既存手法との比較を行っている。既存手法としてはlobSTRとRepeatSeqを用いているが上記の精度検証において開発手法の優位性を確認しており、現在精度検証からの知見をもとに改良を行うとともに論文化を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度はハイスループットシークエンスデータからのマイクロサテライト領域におけるリピート数の推定をより高精度に行う解析手法を開発した。これにより、マイクロサテライト領域におけるインピュテーションのためのパネル構築に向けた基礎固めを行うことができた。
|
今後の研究の推進方策 |
本年度開発した手法における精度検証からの知見をもとに改良を進めパネル構築を行うとともに、マイクロサテライトのリピート数推定に特化したインピュテーション手法の開発に着手する予定である。
|