本研究では、1細胞RNA-Seqデータに含まれる細胞集団の細胞型(Celltype)を判定する汎用的なデータ解析手法の確立を目指している。細胞型判定のための1細胞RNA-Seqデータ解析の流れとしては、細胞型同定に役立つ遺伝子の選別 → 次元圧縮 → クラスタリング → 既知マーカー遺伝子の発現量の確認 → 細胞型判定、という順に解析が行われる。課題としては、1. 大規模1細胞RNA-Seqでは次元圧縮の計算量が膨大になる、2. システマティックに細胞型を判定する方法論が存在しない、といったことが挙げられるため、これらの解決に取り組んだ。 1.に関しては、幅広く利用されている主成分分析を、データ行列の一部分だけをメモリに展開して計算する、オンライン型アルゴリズムとして実装した。このようなアルゴリズムは複数考案されているが、1細胞RNA-Seqデータへの実用性、計算時間、メモリ使用量を評価し、最適なアルゴリズムを選定しており、現在この成果を論文として執筆中である。 2.に関しては、東京大学佐藤健太氏と共同で、Locality Sensitive Hashingを用いた高速な細胞検索ソフトウェアCellFishing.jlを開発し、この成果はBMC Genome Biologyに採択された。この方法により、Human Cell Atlasなど大規模な1細胞RNA-Seqをリファレンスとして、手元の細胞データが既知のどの細胞型に似ているかを自動的に判定することが可能となった。 今後の展望としては、これまでに報告されたことがないような細胞型が手元のデータに含まれていた場合に、細胞がどのような機能と関連しているのか(細胞機能アノテーション)、細胞同士がどのようにコミュニケーションをしているか(細胞間コミュニケーション)を検出する手法を開発し、その細胞型を特徴づける予定である。
|