研究課題/領域番号 |
21K19827
|
研究機関 | 大阪大学 |
研究代表者 |
松田 秀雄 大阪大学, 情報科学研究科, 教授 (50183950)
|
研究期間 (年度) |
2021-07-09 – 2024-03-31
|
キーワード | 細胞系譜推定 / 細胞種推定 / 細胞アトラス / バイオインフォマティクス |
研究実績の概要 |
本研究では、多様な細胞集団に対して1細胞RNAシーケンシングをすることで得られる遺伝子発現データを基に、それらの細胞集団の分化等の時間的に推移する過程を表す細胞系譜を解析し、細胞集団の持つ多様性と連続的な状態遷移過程についての知見を得ることを目的としている。 従来の1細胞RNAシーケンシングデータからの細胞系譜推定手法は、細胞間で遺伝子発現プロファイルの差異を基にした距離によりクラスタリングをして細胞集団をクラスタに分類し、さらにクラスタ間を最小全域木により結合することで、細胞集団間の細胞系譜を求めていた。しかし、細胞分化等の生命現象では、細胞集団の状態遷移は動的で不均一に進展することがあるため、最小全域木が必ずしも細胞系譜を表現するのに適切なモデルとはならない可能性がある。そこで、本研究では、細胞集団の状態遷移過程を、遺伝子発現プロファイルの比較だけでなく、細胞集団中に含まれる細胞の種類などの情報をも利用して、細胞系譜を推定する手法の開発を実施している。 実際に、マウス胚性幹細胞(ES細胞)の変異体と野生型に対して分化誘導をかけたときの1細胞RNAシーケンシングデータに対して細胞系譜を推定したところ、2種類の変異体と野生型でそれぞれ異なる細胞種への細胞系譜が推定され、手法の開発に重要な手掛かりが得られた。 現在、細胞集団中の細胞種の推定を、細胞アトラスにつけられた細胞種のアノテーションデータを教師データとして機械学習により行う手法を開発中である。従来の細胞種推定手法は、遺伝子発現プロファイルと細胞種のアノテーションを単純に対にして教師データとするものが多いが、細胞種には近縁のものとそうでないものが混在しているため、Tabura Murisの細胞オントロジなど細胞アトラスのメタデータ等を利用して、細胞種間の近縁関係を考慮した細胞種推定手法の開発を実施している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究協力者である、奈良県立医大 堀江教授のグループから、マウス胚性幹細胞(ES細胞)の変異体バンクから、2種類の変異体と野生型に対して分化誘導をかけたときの分化前、分化後7日目および14日目の1細胞RNAシーケンスデータの提供を受けている。それらに対して細胞系譜の推定を行ったところ、興味深いことに、2種類の変異体および野生型において、相互に異なる3種類の細胞系譜が得られている。具体的には、野生型では主に神経細胞の系譜に分化するのに対して、2種類の変異体では神経細胞への分化が強く抑制され、それぞれ別の細胞種へ分化すると見られる系譜が得られている。このように、変異体によってそれぞれ別の方向に分化する傾向が得られたのは想定外であり、同じ未分化の状態から開始したのに、どの時点で系譜に分岐が生じ、どのようにその後に異なる分化系譜への状態遷移が生じるのかを解析中である。 また、細胞種推定手法については、現在、多くの手法が細胞アノテーションの付与された遺伝子発現プロファイルを教師データとする機械学習に基づく方式を採用している。しかし、現状では教師データとなる細胞アノテーションが付与された遺伝子発現プロファイルが圧倒的に不足している状況となっている。細胞アノテーションが付与されなくても、細胞集団と相互の位置関係が明確に整理された細胞アトラスを使って、少ない細胞アノテーションから高い精度の細胞種推定を行うことができれば、その結果を使って半教師学習や生成モデルにより疑似的に教師データを増やすことが期待できるため、このような方針で細胞推定手法の開発を進めている。 以上のことから、本研究はおおむね順調に進捗していると考えられる。
|
今後の研究の推進方策 |
細胞種および細胞系譜の推定手法の中核部分である機械学習手法のための教師データの生成を優先して進めていく。現在、1細胞RNAシーケンシングに関して多数の論文が発表され、データが公開されているが、細胞種の推定に有効な細胞アノテーションは常に付与されているとは言い難い。そこで、既存の細胞アノテーションが付与された1細胞RNAシーケンシングデータを教師データとして、複数の細胞種推定手法による推定結果の一致度を見ることで、より信頼性の高い細胞種推定を行う計画である。さらに、細胞アノテーションが付与されていない1細胞シーケンスデータに対して、この推定を適用し、手法ごとの一致度が高く信頼性の高いとみられる細胞種が推定できた細胞集団については、推定結果を疑似的な細胞アノテーションとして教師データに加えることで半教師学習を行う推定手法を開発する。現在、この推定手法を実装したプロトタイプを開発中である。 細胞系譜の推定については、細胞種推定の結果として得られる各細胞ごとの細胞種データを、細胞オントロジにあてはめて、オントロジの階層関係から細胞種間の距離を求める。ここで得られた距離と、各細胞の遺伝子発現プロファイル間の比較により得られた距離を組み合わせることで、細胞集団のクラスタリングを行う。これにより得られた細胞集団のクラスタに対して、前述の細胞種データを利用して、未分化から成熟細胞へと分化する系譜を、遺伝子発現量の変化も考慮して推定する手法を開発する。従来の細胞系譜推定手法では、遺伝子発現量の変化のみに基づいて系譜を推定していたため、細胞種のデータを組み合わせることで、より精度の高い細胞系譜推定手法の開発を行う。
|
次年度使用額が生じた理由 |
本研究での細胞種の推定では、機械学習の教師データとして細胞アノテーションが付与された1細胞RNAシーケンシングデータが必要であるが、公開されているデータをデータベースや論文等で調査したところ、データの量やアノテーションの質ともに十分ではないことが判明した。そこで、今年度は、少ない教師データからでも精度の高い推定を行うための半教師学習に基づく機械学習手法を新たに取り入れた細胞種推定手法の開発を重点的に行い、今年度に予定していた細胞種推定結果に基づく細胞系譜推定手法の開発の一部を次年度に実施するように研究計画を修正した。このため、今年度に予定していた研究成果発表が次年度に繰り越しとなり、次年度の使用額が生じた。 一方で、研究協力者から提供を受けたマウスES細胞の変異体に分化誘導をかけたときの1細胞シーケンシングデータを解析した結果、細胞系譜の分岐についての新たな知見が得られ、本研究での細胞系譜推定手法の開発で重要な手掛かりとなった。 以上のことから、細胞種推定手法の開発では当初想定されていなかった課題が生じたが、一方で細胞系譜推定手法の開発では、手法の有効性と意義が明確となり、次年度に予定していた手法の応用と評価の一部を前倒しで行うことができたため、本研究全体の進捗への影響はないと考える。
|