2017 Fiscal Year Research-status Report
1細胞RNA-Seqデータ内に含まれる細胞型を特定する解析手法の確立
Project/Area Number |
16K16152
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
露崎 弘毅 国立研究開発法人理化学研究所, 情報基盤センター, 特別研究員 (70769520)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | バイオインフォマティクス / 生命情報学 / single-cell RNA-Seq / 情報検索 / 次世代シーケンサー / 1細胞RNA-Seq / 機械学習 / オミックス |
Outline of Annual Research Achievements |
本研究では、1細胞RNA-Seqデータに含まれる細胞集団の細胞型を判定する汎用的なデータ解析手法の確立を目指している。現在、細胞型判定のためのデータ解析の流れとしては、細胞型同定に役立つ遺伝子の選別 → 次元圧縮 → クラスタリング → 既知マーカー遺伝子の発現量の確認 → 細胞型判定、という順に解析が行われる。 課題としては、1. 大規模1細胞RNA-Seqでは次元圧縮の計算量が膨大になる、2. システマティックに細胞型を判定する方法論が存在しない、といったことが挙げられるため、これらの解決に取り組んでいる。 1.に関しては、幅広く利用されている主成分分析をオンライン型アルゴリズムに改良することで、高速・低メモリ消費量でデータを圧縮することに成功している。 2.に関しては、前年度までは、細胞型判定済みの公開データベースを利用し、手元のデータと比較照合することで、自動的に手元のデータの細胞型を判定するシステムを考えていたが、1細胞RNA-Seqは、SMART-Seq、Quartz-Seqなど、特定の実験技術ごとに遺伝子発現プロファイルに違いがあり(バッチエフェクト)、そのばらつきが細胞型によるデータのばらつきよりも大きいために、適切にデータ同士を比較できないことがわかっている。幾つかの実データでの検証により、あらゆるデータで汎用的にバッチエフェクトを取り除く手法は、難しいことがわかってきたため、Human Cell Atlasなどwell-controlされた国際プロジェクトデータベースの利用に止めることを考えている。 また、2.の代替案として、細胞がどのような機能と関連しているのか(細胞機能アノテーション)、細胞同士がどのようにコミュニケーションをしているか(細胞間コミュニケーション)を検出するためのアルゴリズムを開発することで、細胞型の理解の判断材料を増やすことを考えている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
上記の1.に関して : 現在論文を執筆中である。従来方法と比較して、オンライン型にしても遜色なく同程度の精度で計算ができることを確認している。
上記の2.に関して : Human Cell Atlas, Mouse Cell Atlas, Tabula Murisなど、大規模な国際プロジェクトにより、ヒトやマウスの個体を構成する細胞が網羅的に調べ上げられる。そのため、これらのプロジェクトのデータのみで細胞型判定方法を考えた方が、細胞型の網羅性的にも、データのクオリティ的にも得策だと思われる。これまでは、公開データベースの利用を考えていたが、上記のようにテーマの方向性が変わったため、現在データの取得・整形からやり直している。
それ以外の、細胞機能アノテーションや、細胞間コミュニケーションに関しては、近年Webマイニング分野で提唱されている、あらゆるデータをグラフととらえて統合する、Heterogeneous Information Network(HIN)という考えが有効であると考えており、これまでのバイオデータでの適用事例や、利用したアルゴリズムについて、網羅的なレビュー論文を執筆した。
|
Strategy for Future Research Activity |
1.については、引き続き論文を執筆していく。2. については、現在すでに公開されている、マウスの大規模プロジェクトデータを中心に、バッチエフェクト除去の方法を考える。機能アノテーションや細胞間コミュニケーションについては、教師あり学習(次元圧縮、クラスタリング)でデータに含まれる特定のパターンを抽出する方針と、教師あり学習(判別・回帰)で、モデルを構築しておき、別の研究者が持つ新しいデータに対して予測も行える状態にすることで、研究者同士の知識共有を目指す。
|
Causes of Carryover |
今年度の費用は、1. 海外で数週間研究する際の旅費・滞在費と、2. 計算機購入として利用する予定であったが、以下の理由で、まだ利用していない。 1. 海外で数週間研究する際の旅費・滞在費について : EMBL-EBIで、"Geek for a week"(https://www.ebi.ac.uk/research/trainees)という制度で、渡航費を自分で用意できる、海外の研究者をインターンシップとして招く制度があり、私もこの制度に応募する予定でいたが、論文執筆作業などが込み入っていたため、まだできていない。そのため、次年度に、執筆作業が終わり次第、申請する予定である。 2. 計算機購入について : 先に所属研究室の予算で、計算機が支給されたため購入していない。現在使用しているものの状態と、新しいモデルが出るタイミングを考慮して、時期を決めていく予定である。
|
Research Products
(5 results)