| Project/Area Number |
21K06130
|
| Research Category |
Grant-in-Aid for Scientific Research (C)
|
| Allocation Type | Multi-year Fund |
| Section | 一般 |
| Review Section |
Basic Section 43050:Genome biology-related
|
| Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) (2023-2024) Shizuoka Prefectural Hospital Organization (2021-2022) |
Principal Investigator |
小杉 俊一 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (30365457)
|
| Project Period (FY) |
2021-04-01 – 2026-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2024: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
| Keywords | 挿入 / アンマップリード / ヒトゲノム / 構造変異 / ゲノム / 全ゲノムシークエンシング / アンマップ / ゲノムシークエンシング / unmapped read |
| Outline of Research at the Start |
全ゲノムシークエンシングデータにおいてリファレンスゲノムにマップされないアンマップリードには、ウイルスなどの他生物由来配列のゲノムへの挿入に由来するものを含む。このような未知の挿入配列は、挿入部位周辺の遺伝子の機能に影響を与えるだけでなく、挿入配列から異種遺伝子が発現される可能性があり、ヒト疾患を含めた生命制御の新たな制御機構の発見に繋がる可能性がある。本研究では、疾患サンプルを含む一万人規模のヒト全ゲノムシークエンシングデータから抽出したアンマップリードをヒト以外の全塩基配列データベースに対してアライメントを行い、未知生物由来のゲノム挿入配列、挿入部位を同定する。
|
| Outline of Annual Research Achievements |
前年度において、1KGおよびDDBJのヒト全ゲノムシークエンス(WGS)データ(計11,700サンプル)から抽出したunmappedリードをRefSeqデータベースにマッピングを行った。得られたデータから10 Kb以上のリファレンスへのアライメント長を示し、平均リードアライメント深度が10-50x、および共有サンプル数が3以上のデータを抽出したところ、ウイルスで227、バクテリアで29、原生動物・アーキアで2、植物で10、無脊椎動物で12、哺乳類を除く脊椎動物で25のRefSeq配列にアライメントされたデータが得られた。これらのRefSeq配列が、該当ヒトサンプルのゲノムへの挿入であるかどうかを確認するために、ゲノム情報解析を用いてRefSeq配列の挿入部位の探索を行った。該当ヒトサンプルのWGSデータから、soft-clipped readsとdiscordant readsが集積した挿入部位の候補領域を収集し、各々の領域でdiscordantリードペアの一方が該当するRefSeq配列のアライメント領域の末端領域にマッピングされる領域を解析することにより、RefSeq配列のゲノム挿入部位の複数の候補を同定した。今後いくつかの該当サンプルのゲノムDNAを入手してPCRまたはロングリードを用いて挿入部位の実験的確認を行う計画である。 この解析とは別に、公共データベースから入手可能な多くのヒトロングリードWGSデータを用いて挿入配列とその挿入部位を同定し、その挿入配列をRefSeqデータベースにマッピングを行うアプローチを用いて非ヒト配列の挿入を同定する計画を進めている。これに伴い、独自に開発したツール(TRsv)を用いて、138 PacBio HiFi WGSデータから挿入を含む構造変異を同定した内容の論文を現在投稿中である(under revision)。
|
| Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
RefSeqデータベースへのunmapped readsのアライメントデータから、ゲノムへの挿入部位を同定する情報解析に思いのほか時間を要し、解析が難航したことが最も大きな理由である。
|
| Strategy for Future Research Activity |
得られたRefSeq配列の挿入部位候補を絞り、該当サンプルのゲノムDNAを入手して、PCRまたはロングリードを用いて挿入部位の実験的確認を行う計画である。また、ロングリード全ケノムシークエンスデータから同定した挿入配列および挿入部位を用いる別のアプローチを用いて、非ヒト配列の挿入の同定を行う計画である。さらに、昨年度から計画しているパーキンソン病のデータリソースであるAMP PDから全ゲノムシークエンスデータを取得し、パーキンソン病発症に関わる非ヒト由来ゲノム挿入の同定を試みる。
|