2023 Fiscal Year Annual Research Report
Integrated Multi-Omics Analysis Methodology with Image Transformation and Deep Learning for Pathophysiology and Drug Response Mechanisms
Project/Area Number |
20H03240
|
Allocation Type | Single-year Grants |
Research Institution | The University of Tokyo |
Principal Investigator |
角田 達彦 東京大学, 大学院理学系研究科(理学部), 教授 (10273468)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Keywords | 深層学習 / マルチオミクス / 画像変換 / ゲノミクス / 治療予測 |
Outline of Annual Research Achievements |
本研究は、オミクスデータを画像に変換し深層学習に用いる申請者の手法に基づき、マルチオミクス統合解析と画像認識を応用した手法を開発し、実データ解析により、薬剤応答予測などの精度が上がるか、背後にあるオミクスの特徴や構造の抽出が可能か、また薬剤応答予測に必要な方法論は何かを解明することを目的とする。本年度は、データの画像変換と深層学習による1細胞RNA-Seqデータの解析手法を開発した。1細胞RNA-Seqデータは現在世界中の機関で膨大に取得され蓄積されつつあり、個々のデータの由来となる細胞の種類を同定することは解析の出発点であるはずだが、細胞種どうしが似ていたり、遺伝子発現に欠損値が多かったり、遺伝子同士の関係が複雑であるなど、同定することが非常に難しい。この問題の解決に、申請者のDeepInsight(Scientific Reports 2019)が使えると考えた。そこで、学習用の参照データの準備や、バッチ効果の調整などの前処理も含めたアーキテクチャの開発・実装した(scDeepInsight法; Briefings in Bioinformatics 2023)。評価の結果、血液由来の細胞(多くは免疫細胞)の未知のテストデータに対しても、テストデータでも87.5%という精度で1細胞ごとに由来を同定できた(評価の高い他の手法と比べて7%以上の精度の向上)。また細胞種を判別する決め手となる遺伝子マーカーも同定できた。この成果も含め、本研究課題のDeepInsightと応用(DeepFeature、DeepInsight-3D、scDeepInsight)を総説としてまとめ、出版した(Journal of Human Genetics 2024)。さらに、実データ評価のため、1細胞RNA-Seqなどのオミクスデータと、次の計画のための独自の軟部肉腫のデータを整備した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究課題のマルチオミクスデータに基づく、各患者に対する薬剤奏効を予測するモデルとバイオマーカーの同定は、前年度に一定程度以上に達成して論文出版もできた。本年度はそれに加えてさらなる複雑な関係もとらえられる方法も開発し、成果が得られたことから、論文を投稿し、現在リバイス中である。さらに今年度は、1細胞RNA-Seqデータを使った細胞種同定という、細胞解析を行なっている世界中の多くの研究者に実際に役立つ課題を解決し、論文も出版することができた。これは当初の計画以上の新規の課題と非常に顕著な成果である。そしてこれを含めて今まで本研究課題で開発し達成してきた成果をまとめ、総説として出版できた。さらに、実データ評価のため、独自の軟部肉腫のマルチオミクスデータ、薬剤奏効(RECIST)、OS、RFS、PFSを整備した。これらのことから総合的に判断し、当初の計画以上に進展したと考える。
|
Strategy for Future Research Activity |
今後の研究計画として、残りあと1年となったが、これまで開発してきたがんの薬剤応答予測のためのアーキテクチャのさらなる発展と評価を行うことを目指す。このために、一つは特徴抽出部分により高度なフィルタを用いることで非線形な関係をとらえることを考える。本研究の根幹となるDeepInsight法の要は深層学習に入力する前にいかに的確な生物学的特徴をとらえられるかという点なので、その部分に非線形なフィルタを複数用いることにより高度化することで、より生物学的に妥当な解析を行えるようにする。もう一つはタンパク質間相互作用などの事前知識を入れる方法であり、それをグラフネットワーク化して、これまで用いてきた深層学習の前段階に置くことで実装する。その一環としてKEGGやPARADIGMなどのパスウェイを統合して解析する方法も検討する。学習にはGDSC/CCLEの細胞株の薬剤応答データを用い、評価ではTCGAとPDXを用いて検証する。細胞株の薬剤応答データでは、IC50に対する閾値を変化させた場合の挙動の違いなどを探る。加え、独自の軟部肉腫、肺腺がん、大腸がん、肝がん、腎がんを用いて検証を行う。これらから得られた結果を既存の予測モデルと比較し、またそのモデルのベースとして抽出できた遺伝子による薬剤応答パスウェイと比較することにより、正しさの検証とがんの薬剤応答や環境に関する未知のメカニズムの発見を目指す。
|
Research Products
(7 results)