2016 Fiscal Year Research-status Report
1細胞RNA-Seqデータ内に含まれる細胞型を特定する解析手法の確立
Project/Area Number |
16K16152
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
露崎 弘毅 国立研究開発法人理化学研究所, 情報基盤センター, 特別研究員 (70769520)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | バイオインフォマティクス / 生命情報学 / single-cell RNA-Seq / 情報検索 / 次世代シーケンサー |
Outline of Annual Research Achievements |
本研究では、single-cell RNA-Seqデータに含まれる細胞集団の細胞型(Celltype)を判定する汎用的なデータ解析手法の確立を目指している。細胞型同定には、FACSによる細胞の表面高原のタイプによる判別、マーカー遺伝子の発現量による判別、ゲノム内の特徴的な配列による判別、ラマン分光法で計測された散乱スペクトルによる判別などがあるが、共通するデメリットとして、網羅的なデータベースが存在しないことが挙げられる。一方で、超並列型DNAシーケンサー(NGS)の普及により、公開データベース(DB)に登録されたsingle-cell RNA-Seqや、bulk-cell RNA-Seqは、ヒト、マウスで各々1万件以上あり、組織と細胞型の登録情報は合わせて100件を超え、今後もその数は増大していくと予想される。そのため、(single-cell)RNA-Seqの公開データを二次利用することで、様々な細胞型を判定できると考えられる。
細胞型判定のための方法として、当初は、公共DB上の(single-cell)RNA-Seqのデータを全て定量化した遺伝子発現DBを構築し、DB上の全サンプルに対して、手元のsingle-cell RNA-Seqデータと類似したデータを検索するシステムを考えていたが、幾つかの理由により、現在は別の形式のシステムを考えている(詳細は、後述)。
今後は、方法論の確立と並行して、共同研究先のデータ解析での本手法の応用も行う。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の計画とは異なり、以下の2点、方針を変える必要が生じたため。
1. 異なる実験環境(バッチ)で計測されたデータの場合、同じ臓器・細胞であっても、バッチ間でデータに大きく差が生じる"バッチエフェクト"が存在する。特にsingle-cell RNA-Seqの場合、低発現の遺伝子は検出限界により、計測されづらくなる"ドロップアウト"現象があり、実験プロトコルにより、ドロップアウトの程度が全く異なる。そのため、異なるsingle-cell RNA-Seq実験同士、またはsingle-cell RNA-Seqとbulk-cell RNA-Seq同士では、そのままでは正当な比較が行えないと考えられる。現在は、ドロップアウトするような低発現な遺伝子には着目せず、細胞型特異的に変動する遺伝子にのみ着目し、細胞型を同定するためのアルゴリズムを開発している。幾つかの人工データ、実データでの検証により、このアルゴリズムの精度が示されているため、論文執筆した後、遺伝子発現DBとの比較システムに組み込む予定である。
2. 現在までのところ、single-cell RNA-seqは個体レベルではなく、各臓器ごとに行なわれており、手元のデータに何の細胞が含まれているかは不明でも、臓器レベルでは、少なくとも何の臓器かはわかっていることが想定される。そのため、手元のデータと同じ臓器同士で、類似度検索を行ったほうが、ノイズが少なくてすむ。この場合、網羅性よりも、各臓器の代表的なリファレンスDBが必要であるため、現在手作業で汎用的に利用できそうなデータを幾つか選んでいる。また今後はHuman Cell Atlasなど、大規模single-cell RNA-Seqプロジェクトのデータも利用する予定である。
|
Strategy for Future Research Activity |
上記の1.で言及したアルゴリズムにより、single-cell RNA-Seq同士だけではなく、single-cell RNA-Seqとbulk-cell RNA-Seq同士でも、同じ細胞型を類似だと判定できている。そのため、この方法は、異なる実験プロトコルデータ同士を統合して解析するメタ解析、特に異種プラットフォーム間正規化法(Cross-Platform Normalization)の一種として、広く利用できると考えられるため、現在論文を執筆中である。
公開DB上のデータの中には、変異実験や、RNAiで強制的に特定の遺伝子の発現を抑制させているものや、試薬の投与により、人為的に発現プロファイルを変化させているものも含まれている。このようなデータは、実際に生体内に存在する細胞の状態とは異なると考えられる。そのため、上記の2.でも言及したが、現在は、手作業で汎用的に利用できそうなデータを幾つか選んでいる。今後は、データが揃い次第、遺伝子発現量DBとして、公開する予定である。
|
Causes of Carryover |
物品として、Mac Book Pro(1167400円)を購入する予定だったが、別の予算から所属研究室で購入してもらったため、購入時期をずらすことにしたため。また、当初海外で数週間研究する予定でいたが、論文執筆などの作業が込み入っていたため、これも次年度以降に繰り越す予定である。
|
Expenditure Plan for Carryover Budget |
Mac Book Proについては、新しいモデルが出るタイミングと、現在使用しているMac Book Proのコンディションに応じて、購入時期を決定する。また、海外へ行くタイミングは、現在執筆中の論文が完成し次第、行く予定である。
|