研究課題/領域番号 |
18K06198
|
研究機関 | 順天堂大学 |
研究代表者 |
茂櫛 薫 順天堂大学, 医学(系)研究科(研究院), 非常勤講師 (60569292)
|
研究分担者 |
島田 周 東京医科歯科大学, 大学院医歯学総合研究科, 助教 (20609705)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | バイオインフォマティクス / 仮想ダイセクション法 / 教師なし学習 / 遺伝子発現解析 |
研究実績の概要 |
本課題では、ヒト臨床検体(正常・炎症・癌組織)の遺伝子発現情報から、組織内に含まれる細胞群の混合率を推定するアルゴリズムを開発する。例えば、抗PD1/PD-L1抗体などの免疫チェックポイント阻害剤では、癌組織に浸潤している免疫細胞(マクロファージ、NK細胞、T細胞、B細胞など)の違いも重要になると考えられる。治療法の選択においては癌細胞だけでなく間質細胞も細分化して解析し、各細胞の割合を定量的に算出することが必要となる。 そこで、細胞種が混在した正常・炎症・癌などの組織の発現パターンを公共データベースから入手し、機械学習の一つである「教師なし学習」を用いて、各細胞群のリファレンスとなる発現パターン(リファレンス発現パターン)とそれらの混合比を検体ごとに推定する。さらにリファレンス発現パターンを用いて、新規に得られた検体の発現プロファイルに対して細胞群の混合比を算出し、研究者に提示するようなウェブシステムを構築する。 まず、アルゴリズムの方向性や前処理のパラメーターの評価・検討を行うため、既知の割合で混合したラット組織の公開発現データによる予備解析を実施した。その際、当初想定していた非負値行列因子分解(NMF)のみならず、非負値主成分分析(nsprcomp)や非負値スパース累積主成分分析(nscumcomp)などの類似手法による追加検討を行った。また、TCGA (The Cancer Genome Atlas)にて公開されている肝細胞癌、乳癌、肺癌などのRNA-seqの発現情報を用いて、それぞれのがん種における細胞種の共通パターン推定を行った。また、それぞれのリファレンス発現パターンの生物学的意義の解釈を進めるとともに、がん横断的な類型パターンの収集とカタログ化を目指した。これれと並行し、上記システムのクラウド環境への移行を実施し、評価を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2018年度では、おもに細胞種の混合率を推定するアルゴリズムの検討を行った。本研究では公開されたRNA発現データを使用するが、公開データのヒト臨床検体では細胞種の混合率の情報を得ることが困難である。そのため、あらかじめ混合率が分かっているデータをもとに、予備解析と評価を進めた。 2019年度は、TCGA (The Cancer Genome Atlas)に収載されている肝細胞癌、乳癌、肺癌のRNA-seqによる発現データを用いて、それぞれのがん組織に含まれている細胞種のリファレンス発現パターンの収集を進めた。nsprcompとNMFの2つの手法を用いて検討を進めており、大別すると(A) 組織ごとの正常細胞由来と考えられる発現パターン、(B) 腫瘍細胞由来と考えられる細胞周期関連遺伝子の亢進を含むリファレンス発現パターンと、(C) 免疫細胞由来と考えられる炎症系の遺伝子群の亢進を含むリファレンス発現パターン、の3つの主要なパターンとなっている。また、安定的に見いだされる各細胞に固有の発現パターンであるリファレンス発現パターンの収集・分類とカタログ化について検討した。 2020年度はこれらのスケールアウトを目指し、Google Cloud Computing (GCP)のクラウド環境への移行と評価を行った。必要なRパッケージの導入や、仮想CPU数や必要メモリなどの検討を行うとともに、接続元IPアドレス制限などについても対策を実施した。なお、本課題で扱う範囲の臨床検体のデータはすべて公開データであるため、クラウド以降にあたっての倫理面での問題は発生しない。また、引き続きTCGAのRNA-seqデータを用い、各細胞に固有の発現パターンであるリファレンス発現パターンの収集・分類とカタログ化の検討を進めた。
|
今後の研究の推進方策 |
2020年度末を目途に、最終的なリファレンス発現パターンから、解析対象とした全ての癌検体に対して細胞種の割合を計算して公開データとして準備することを目標としていたが、解析作業が遅れているためクラウド移行による効率化により改善を試みたい。また、公開用サーバーをクラウド環境で構築するとともにウェブ・アプリケーションを開発し、2021年度の公開を目指す。開発環境としては統計処理言語Rをベースとしたウェブ・アプリケーション開発環境であるShinyを利用する予定である。なお、研究期間の延長を申請しており、2021年度も継続して本課題に取り組みたい。
|
次年度使用額が生じた理由 |
2020年度からクラウド環境の研究・開発の比重が増えるものの、起動コストが掛かるため2020年度までに構築したローカルの計算資源計算機も2021年度は併用予定である。そのため残予算は現在の計算資源の故障対応などのメンテナンスやストレージ追加などに適切に配分する予定である。
|