2020 Fiscal Year Research-status Report
RNA-seq解析における深層学習方法論の開発と肉腫診療への応用
Project/Area Number |
20K09453
|
Research Institution | The University of Tokyo |
Principal Investigator |
小林 寛 東京大学, 医学部附属病院, 講師 (20407951)
|
Co-Investigator(Kenkyū-buntansha) |
篠田 裕介 埼玉医科大学, 医学部, 教授 (80456110)
谷口 優樹 東京大学, 医学部附属病院, 特任准教授 (80722165)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 軟部肉腫 / 深層学習 |
Outline of Annual Research Achievements |
軟部肉腫の組織型として最も頻度が高い未分化多形肉腫は、『明確な分化方向や特異的融合遺伝子を持つ腫瘍』を除外した結果として診断される腫瘍であり、詳細な病態は知られていない。本研究は、未分化多型肉腫のRNA-seq解析を用い、発現パターンを基にした再分類を行うとともに、新規治療標的・バイオマーカーを同定することを目的としている。肉腫は軟部組織に発生する悪性腫瘍であり、その起源細胞は血管、脂肪、骨、神経など多岐にわたる。そこで、まず36種類の正常組織を用いたRNA-seq解析のデータを入手し、起源細胞を推定する元データとした。この正常組織の解析は全てTCGA projectで用いられたものと同一の試薬と解析パイプラインを用いて行っており、バイアスを生じることなくTCGAに登録されている33種類、11,315サンプルの悪性腫瘍に由来するRNA-seq解析データと統合することができるようにした。現在は、日本全国の骨軟部腫瘍診療を担う専門病院から臨床検体を収集しオミックス解析を行うプロジェクトである肉腫ゲノムコンソーシアムから未分化多型肉腫の症例を収集していく段階であり、十分な症例数が集まり次第、RNAの抽出とライブラリの調整、シーケンスを行っていく。 RNA-seqのデータからの深層学習を用いたシグニチャー解析と、未分化多型肉腫の再分類に関する深層学習モデルの作成は、TCGAに公開されているデータを用いてpythonおよびTensorFlowにより開発中であり、起源細胞に基づくシグニチャーと腫瘍特異的なシグニチャーをあわせて解析するモデルを構築している。このモデルを上述のとおり収集したデータで妥当性の検証を行う予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
東京大学医学部附属病院では、独自に開発した東大オンコパネルを用いて各種腫瘍のクリニカルシーケンスを行っている。これは、過去に手術で採取した腫瘍のFFPEサンプルからDNAおよびRNAを抽出し、がん遺伝子/がん抑制遺伝子の変異解析・発現解析を行うものである。今回の研究は凍結検体を日本全国から収集して行う予定であったが肉腫の希少性のため十分な検体数が収集できない恐れが出てきた。そこで、各施設でこれまでに収集したFFPE検体の活用を試みた。東大オンコパネルによる発現解析とTCGAのRNA-seqによる発現解析を統合して深層学習モデルを構築できないかを検討した。まず36種類の正常組織を東大オンコパネルとRNA-seqでそれぞれ発現量解析したデータを入手し、両者の変換式を導出した。このデータをキャリブレーションに用い、当院で保有している肺癌、大腸癌、未分化多型肉腫のFFPEサンプルの東大オンコパネルによる発現量解析をRNA-seqによる発現量に変換後、TCGAのデータを用いて作成した深層学習モデルを用いて組織型予測を行った。しかし、変換に際して生じるバイアスを完全には除去できておらず、組織型の予測はできなかった。結果として、本来の予定通り凍結検体のRNA-seqのデータのみを用いて研究を進めることにした。 腫瘍のシーケンスに先行して入手している36種類の正常組織のRNA-seqは、全てTCGAで行われたRNA-seqと同一のシーケンス試薬および解析パイプラインを用いて行われており、TCGAのデータとバイアス無くマージできることを確認した。また、TCGAのデータを用いたがん腫予測深層学習モデルを構築した。96%以上の精度で予測でき、またがん種特異的に発現変動している遺伝子の抽出に成功した。
|
Strategy for Future Research Activity |
肉腫ゲノムコンソーシアム参加施設がこれまでに収集した未分化多型肉腫の凍結検体のサンプル数、および今後2年間に新たに採取される予定のサンプル数を調査し、最終的な解析サンプル数を決定する。各施設での倫理委員会で研究の承認を受けた上で準備ができ次第検体を搬送してもらい、TCGAと同様にTruSeq RNA Library Prep Kitを用いたライブラリ調整を行う。次世代シーケンサーでのシーケンスは検査会社への外注で行い、得られたFASTQファイルを用いた発現量解析は、TCGAが公開している解析パイプラインと同一のものを、当研究室が保有している解析サーバーを用いて行う。深層学習モデルの開発に用いるGPUサーバーは現在24ギガバイトのメモリを搭載したNVIDIA Titan RTXを用いているが、今後のサンプル数の増加に伴い必要メモリ量が増大する可能性があるため、TensorFlowを用いてGPUクラスターでの開発が可能になるようにモデルを調整していく。最終的に収集したデータを5-fold cross validationの手法で解析し、モデルの予測性能の妥当性検証を行う。
|
Causes of Carryover |
次年度使用額が生じた理由:順調に研究が進んでいるため、必要以上に経費をかけずに済んだ。 次年度使用計画:引き続きRNA-seq解析など、次年度以降の経費のかさむ実験に使用する計画である。
|