研究課題/領域番号 |
23H03493
|
配分区分 | 補助金 |
研究機関 | 東京大学 |
研究代表者 |
岩切 淳一 東京大学, 大学院新領域創成科学研究科, 助教 (40770160)
|
研究期間 (年度) |
2023-04-01 – 2028-03-31
|
キーワード | 反復配列 / RNA-seq / 公共データベース / アーカイブデータ |
研究実績の概要 |
本研究では公共データベースに大量に蓄積されているヒトのRNA-seqデータを大規模に再解析することで、ヒトの反復配列由来RNAの探索を行う。本年度はデータベースに登録されている100万件以上のヒトのRNA-seqデータの中で、本研究で解析対象とすべきRNA-seqデータを絞り込むために、先行してランダムに選んだ1万件分のデータを取得し、反復配列の検出や1件当たりのデータ解析にかかる時間の計測を行った。その結果、一部のデータサイズが小さすぎるRNA-seqデータについては、反復配列がほぼ検出されなかったため、今後の解析対象としては、1データに含まれるリード数が1,000万本以下のものは除外することとした。また、1データに含まれるリード数が5億本を超えるRNA-seqデータについては、データ解析に時間がかかりすぎていたため、これらも今後の解析対象から除外することとした。これらの条件で対象データの絞り込みを行い、2023年8月時点で約43万件のRNA-seqデータを解析の対象として選定した。 また、任意の反復配列を入力とした反復配列由来RNAを検出できる解析パイプラインを構築し、テストケースとして5種類の反復配列を選び、上記43万件のRNA-seqデータに対して、反復配列由来RNAの検出を実施した。その結果、約1万件のRNA-seqデータにおいて、反復配列由来RNAが検出され、これらの実験が行われたヒトの細胞において反復配列由来RNAが発現している可能性が示唆された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
解析対象とするデータの選別基準を策定し、実際に43万件のRNA-seqデータについて、実際に反復配列由来RNAの検出を実行できたため、本研究は順調に進展している。
|
今後の研究の推進方策 |
T2Tコンソーシアムが決定した完全なヒトゲノム配列に含まれる反復配列のカタログからヒトで検出すべき反復配列を取得し、実際に公共データベースに登録されているRNA-seqデータに対して、反復配列由来RNAの検出を実施していく予定である。2024年度以降も公共データベースには世界中から新しいRNA-seqデータが順次登録されていくので、1年に1回程度の頻度で新しい解析対象のRNA-seqデータを選別し、本研究の解析対象として順次追加・解析を行っていく。
|