研究課題/領域番号 |
23K11312
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 千葉大学 |
研究代表者 |
露崎 弘毅 千葉大学, 大学院医学研究院, 特任講師 (70769520)
|
研究期間 (年度) |
2023-04-01 – 2028-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2027年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2026年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
|
キーワード | バイオインフォマティクス / エピゲノム / シングルセルオミックス / 次元圧縮 / 機械学習 |
研究開始時の研究の概要 |
ある細胞集団からRNA-Seqとエピゲノムを個々に計測した場合、行も列も共有しないDiagonalなデータ構造となる。Diagonalなデータは一般的に利用できるアルゴリズムが少ない、解析が難しいデータとなる。Diagonalなデータ同士を統合するため、以下の3つの方針を考える。 ・方針1: DiagonalなデータをHorizontalなデータに変換する ・方針2: シングルセルマルチオミックスのデータを利用する ・方針3: 細胞に紐づく別のモダリティのデータを利用する
|
研究実績の概要 |
本研究では、バルクレベルで計測したエピゲノムのデータと1細胞RNA-Seqのデータを組み合わせることで、1細胞エピゲノムデータを計測することなく、バルクエピゲノムデータに含まれる細胞型ごとのプロファイルと、サンプルごとの細胞型の比率を推定する新規Cell-type Deconvolution手法を提案する。 本年度は、転写因子の結合サイトや、ヒストンの化学修飾を検出するバルクChIP-Seqデータに対するCell-type Deconvolution手法の開発を行い、細胞型ごとのプロファイルや、サンプルごとの細胞型の比率を推定することで、擬似的に1細胞的なデータ解析を行うための方法論の確立を目指した。 データとしては、マウスESC/MEF/EMLのH3K4me3/H3K4me2データ(Assaf Rotem, Nature Biotechnology, 2015)と、ヒトB細胞/T細胞のH3K4me3/H3K27me3データ(Kevin Grosselin, Nature Genetics, 2019)の2データセットのデータ整形を試みた。前者の著者らはこちらの再三の問い合わせに返答しなかったため、結果として準備できたのは、後者のデータのみである。 当初はこのscChIP-Seqデータから人為的に生成したバルクChIP-Seqデータと、同様にヒトB細胞/T細胞の遺伝子発現を計測したscRNA-Seqデータとを統合解析するCell-type Deconvolution手法の開発を予定していた。しかしながら、後述するように幾つかの理由から、今後は提案手法のバルクHi-Cデータへの適用に方針転換を予定している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
以下の理由で、研究テーマの方針転換を行う。
1. scChIP-Seq実験の難しさ: 転写因子の結合サイトや、ヒストンの化学修飾を検出するChIP-Seqは、事前にターゲットとなるタンパク質を免疫沈降(IP)したのちに、そのタンパク質に結合したDNAを断片化し、次世代シーケンサーで検出する。そのため、データの品質が、IPの抗体の品質に大きく依存する難しく、再現度の低い実験であり、これをさらにシングルセル化した手法は未だ2つしか報告されておらず、提案手法の予測結果が正常に動作しているのかを確かめるための正解データセットの用意に難航している。
2. scATAC-Seqの台頭: ChIP-Seqと比較して、経験的にクオリティの高いエピゲノムデータを検出できるのが、ゲノムのオープンクロマチンを検出するATAC-Seqであり、1細胞ATAC-Seqは、10X Genomics社がキット化したことで現在世界的に普及している。そのため、今後はChIP-Seqから得られていた知見は、ATAC-Seqデータを介して得られると予想され、そのための方法論が幾つも提案されている。また、本研究で議論している、1細胞エピゲノムデータの細胞型アノテーションの難しさに関しても、現在は1細胞からRNA-SeqとATAC-Seqを同時に検出するscMultiomeキット(10X Genomics社)が広く利用されているため、より細胞型アノテーションしやすいscRNA-Seqでの細胞型ラベルをscATAC-Seqに流用するのが現在の主流となっている。
|
今後の研究の推進方策 |
ATAC-Seqと比較して、ゲノム間の相互作用を検出するHi-Cのシングルセル化は、ChIP-Seqと同様まだ未発達である。また、ChIP-Seqと異なり、Hi-Cデータから得られるゲノム間の相互作用という情報は、Hi-Cでしか得られない貴重なものである。そのため、幾つかの論文がバルクHi-Cデータに対するCell-type Deconvolution手法が提案されているものの、高クオリティなscHi-Cデータが存在しない、データ構造がゲノム領域×ゲノム領域で特殊な形といった理由から、解析手法の開発がそれほど進んでいない。そのため、本研究では、Referenceは上記のアノテーション済みscATAC-Seqとし、Hi-Cに含まれる細胞型ごとのプロファイルや、サンプルごとの細胞型の比率を推定するための方法論を確立する。 scRNA-Seqデータを利用したscATAC-Seqデータの細胞型アノテーションに関しては、共通した細胞で検出された場合(Vertical)でも、別々の細胞で検出された場合(Diagonal)でも、ある程度方法論が確立されつつあるため、それらを用いる予定である。エピゲノムデータは全て、ゲノム配列を一定間のビンで区切った領域データとして扱う予定である。scATAC-SeqとHi-Cは、ゲノム領域という共通のものを見ているため、これらはHorizontalなデータセットとなり、行列・テンソル分解としては、共通の因子行列を設定した上で、各々分解することに相当する。この時に、Hi-C側は、ゲノム領域×ゲノム領域という対称行列であることから、因子行列×因子行列として、データを近似することを考えている。これにより、従来手法と比べて、激的に計算速度を向上することができ、それによりビン幅が狭い高解像度なデータにも提案手法を適用できることを期待している。
|