2023 Fiscal Year Research-status Report
Development of Fundamental Technologies for Similarity Search of Human Genome Structural Variant Data
Project/Area Number |
23K11319
|
Research Institution | Kyoto University |
Principal Investigator |
鎌田 真由美 京都大学, 医学研究科, 准教授 (70749077)
|
Co-Investigator(Kenkyū-buntansha) |
河合 洋介 国立研究開発法人国立国際医療研究センター, その他部局等, 副プロジェクト長 (30435515)
片山 俊明 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任教授 (60396869)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | ゲノム構造多型 |
Outline of Annual Research Achievements |
ゲノムの大きな変化である構造多型(Structural Variant; SV)が、疾患の発症に関わることが知られており、国内外の大規模コホートによるSVデータの蓄積が進められている。各研究者が検出したSVデータの解釈には、ゲノム座標や類似性に基づき、既知のSVであるか否かを整理する必要がある。しかし、SV特有の複雑な多様性によりSV間の比較は容易ではなく、既報データに一致するSVがあるかどうかについては、煩雑なマニュアル作業が求められている。そこで本研究では、多様なSVデータの効率的なアノテーションを可能にするため、SVデータの同一判定モデルと類似検索ツールを開発する。具体的には、SV検出アルゴリズム毎に異なる検出領域定義の揺らぎや表記の違いを吸収するための正規化手法を策定し、SV多様性を考慮した同一判断モデルと類似スコアを開発する。更に、SVデータをクエリとし、類似SVデータの検索を可能にするツールの開発を行う。2023年度は、SV検出結果の正規化手法の開発に取り組んだ。先行研究で精度評価が報告されている69のSV検出ツールから、精度およびコミュニティでの使用頻度が高い6ツールを選出し、GIAB(Genome in a Bottle)から取得した全ゲノムシークエンスデータ(Illumina ショートリードおよび PacBio ロングリード)に対してSV検出を実施し、検出結果の比較及び詳細検討を実施した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2023年度はSV検出結果の正規化手法の開発を予定していたが、評価セットの選定および検出結果の詳細検討に時間を要したため、正規化手法検討を完了することができなかった。ただし、2024年度実施予定の類似スコア策定と並行して検討可能であるため、課題遂行において問題はないと考えている。
|
Strategy for Future Research Activity |
2024年度は、SV結果の正規化手法および類似性評価のためのスコア開発に取り組む。具体的には、2023年度実施したSV検出結果を元に検出手法間でのずれを評価し、多型タイプごとに正規化を行う。さらに、正規化された検出結果に対し、SVのAlteration配列(変化後の変異配列)間のアライメントスコアとオーバラップに両端のずれを考慮した類似性スコアを策定する。
|
Causes of Carryover |
購入を予定していた設備備品の入荷が該当年度内に間に合わず購入を見送ったため、次年度使用額が生じた。2024年度内に計画的に購入し、支出予定である。
|