研究課題/領域番号 |
23K28183
|
補助金の研究課題番号 |
23H03493 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
岩切 淳一 東京大学, 大学院新領域創成科学研究科, 助教 (40770160)
|
研究期間 (年度) |
2023-04-01 – 2028-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
18,200千円 (直接経費: 14,000千円、間接経費: 4,200千円)
2027年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2026年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2025年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2024年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2023年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
|
キーワード | 反復配列 / RNA-seq / 公共データベース / アーカイブデータ |
研究開始時の研究の概要 |
シークエンシング技術の飛躍的な発展により、完全なヒトゲノム配列が解読・公開され、ゲノムから転写されるRNAを網羅的に調べるRNA-seqの実験データも公共データベースに大量に蓄積されてきた。ヒトゲノム配列の中には、ある特定の配列が何度も繰り返し出現する反復配列が大量に存在しており、近年、これら反復配列から転写されるRNAの存在が明らかとなってきたが、これらRNAに着目した解析はほとんど行われていなかった。本研究では、完全なヒトゲノム配列の活用および公共データベースに大量に蓄積されているRNA-seqデータの再解析を通じて、ヒトの反復配列由来RNAの探索・情報基盤の構築を行う。
|
研究実績の概要 |
本研究では公共データベースに大量に蓄積されているヒトのRNA-seqデータを大規模に再解析することで、ヒトの反復配列由来RNAの探索を行う。本年度はデータベースに登録されている100万件以上のヒトのRNA-seqデータの中で、本研究で解析対象とすべきRNA-seqデータを絞り込むために、先行してランダムに選んだ1万件分のデータを取得し、反復配列の検出や1件当たりのデータ解析にかかる時間の計測を行った。その結果、一部のデータサイズが小さすぎるRNA-seqデータについては、反復配列がほぼ検出されなかったため、今後の解析対象としては、1データに含まれるリード数が1,000万本以下のものは除外することとした。また、1データに含まれるリード数が5億本を超えるRNA-seqデータについては、データ解析に時間がかかりすぎていたため、これらも今後の解析対象から除外することとした。これらの条件で対象データの絞り込みを行い、2023年8月時点で約43万件のRNA-seqデータを解析の対象として選定した。 また、任意の反復配列を入力とした反復配列由来RNAを検出できる解析パイプラインを構築し、テストケースとして5種類の反復配列を選び、上記43万件のRNA-seqデータに対して、反復配列由来RNAの検出を実施した。その結果、約1万件のRNA-seqデータにおいて、反復配列由来RNAが検出され、これらの実験が行われたヒトの細胞において反復配列由来RNAが発現している可能性が示唆された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
解析対象とするデータの選別基準を策定し、実際に43万件のRNA-seqデータについて、実際に反復配列由来RNAの検出を実行できたため、本研究は順調に進展している。
|
今後の研究の推進方策 |
T2Tコンソーシアムが決定した完全なヒトゲノム配列に含まれる反復配列のカタログからヒトで検出すべき反復配列を取得し、実際に公共データベースに登録されているRNA-seqデータに対して、反復配列由来RNAの検出を実施していく予定である。2024年度以降も公共データベースには世界中から新しいRNA-seqデータが順次登録されていくので、1年に1回程度の頻度で新しい解析対象のRNA-seqデータを選別し、本研究の解析対象として順次追加・解析を行っていく。
|