研究課題/領域番号 |
18K06198
|
研究機関 | 順天堂大学 |
研究代表者 |
茂櫛 薫 順天堂大学, 医学(系)研究科(研究院), 非常勤講師 (60569292)
|
研究分担者 |
島田 周 東京医科歯科大学, 大学院医歯学総合研究科, 助教 (20609705)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | バイオインフォマティクス / 仮想ダイセクション法 / 教師なし学習 / 遺伝子発現解析 |
研究実績の概要 |
本課題では、ヒト臨床検体(正常・炎症・癌組織)の遺伝子発現情報から、組織内に含まれる細胞群の混合率を推定するアルゴリズムを開発する。例えば、抗PD-1/PD-L1抗体などの免疫チェックポイント阻害剤では、癌組織に浸潤している免疫細胞(マクロファージ、NK細胞、T細胞、B細胞など)の違いも重要になると考えられる。治療法の選択においては癌細胞だけでなく間質細胞も細分化して解析し、各細胞の割合を定量的に算出することが必要となる。 そこで、細胞種が混在した正常・炎症・癌などの組織の発現パターンを公共データベースから入手し、機械学習の一つである「教師なし学習」を用いて、各細胞群のリファレンスとなる発現パターン(リファレンス発現パターン)とそれらの混合比を検体ごとに推定する。さらにリファレンス発現パターンを用いて、新規に得られた検体の発現プロファイルに対して細胞群の混合比を算出し、研究者に提示するようなウェブシステムを構築する。 2018年度では、まずアルゴリズムの方向性や前処理のパラメーターの評価・検討を行うため、既知の割合で混合したラット組織の公開発現データによる予備解析を実施した。その際、当初想定していた非負値行列因子分解(NMF)のみならず、非負値主成分分析(nsprcomp)や非負値スパース累積主成分分析(nscumcomp)などの類似手法による追加検討を行った。 また、TCGA (The Cancer Genome Atlas)にて公開されている肝細胞癌、乳癌、肺癌のRNA-seqの発現情報を用いて、それぞれのがん種における細胞種の混合率の推定を行うとともに、それぞれのリファレンス発現パターンの生物学的意義の解釈を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2018年度では、おもに細胞種の混合率を推定するアルゴリズムの検討を行った。本研究では公開されたRNA発現データを使用するが、公開データのヒト臨床検体では細胞種の混合率の情報を得ることが困難である。そのため、あらかじめ混合率が分かっているデータをもとに、予備解析と評価を進めることとした。 そこで、ラットの脳・肝・肺からそれぞれ抽出したRNAを指定した割合で混合した公開マイクロアレイデータ(NCBI GEOデータベース アクセション番号GSE19830、0~100%まで13種類の割合で混合したもの)を用いて評価を行った。その結果、当初検討していた非負値行列因子分解(NMF)よりも非負値主成分分析(nsprcomp)の方が既知濃度との当てはまりがよいことが分かったため、本研究ではnsprcompを主とし、NMFを比較用のアルゴリズムとして並行して開発を進めることとした。また、遺伝子発現解析では一般にlog2などの対数変換を行ったデータがよく用いられているが、元スケールの発現量を用いた場合の方がnsprcompやNMFによる混合比の推定結果が近いことが分かった。 次に、TCGA (The Cancer Genome Atlas)に収載されている肝細胞癌、乳癌、肺癌のデータを用いて、それぞれのがん種における細胞種の混合率の推定を行った。上述のように、nsprcompとNMFの2つの手法を用いて、(1) 各細胞種のリファレンス発現パターン、(2) 各細胞種の存在比率、の推定を実施した。その結果、ある程度事前の予測された通り、がん種を問わず(A) 腫瘍細胞由来と考えられる細胞周期関連遺伝子が亢進したリファレンス発現パターンと、(B) 免疫細胞由来と考えられる炎症系の遺伝子が亢進したリファレンス発現パターン、の2つの主要な特徴を得ることができた。
|
今後の研究の推進方策 |
前述の通り、主要な2つのリファレンス発現パターンは直感的な解釈が可能であったものの、3つ目以降のリファレンス発現パターンはnsprcompやNMFのパラメーター(用いる遺伝子の選択基準、事前に定めるリファレンス発現パターン数、乱数シードの初期値、期待値最大化法の収束条件など)によって大きな揺らぎが見られたため、一義的な解釈が困難であった。 そのため、2019年度では特徴抽出を複数条件で行い、条件間で類似したリファレンス発現パターンの出現頻度やその生物学的意義を検討することで、揺らぎの中でも安定的に見いだされる各細胞に固有の発現パターンであるリファレンス発現パターンを収集する予定である。また、既知の組織特異的マーカーを用いるとともに、遺伝子の重みづけ成分の内容を吟味しながら分担研究者および協力研究者とディスカッションし、慎重に決定する。 さらに2020年度を目途に、最終的なリファレンス発現パターンから、解析対象とした全ての癌検体に対して細胞種の割合を計算し、公開データとして準備する。また公開用サーバーをクラウド環境で構築するとともにウェブ・アプリケーションを開発し、2020年度内の公開を目指す。
|
次年度使用額が生じた理由 |
研究開始時点ではIntel社のCPUを用いた計算機の調達を検討していたが、よりコア数が多いにも関わらず廉価なAMD社のCPUが発表されたため、計算機の仕様を再検討した。さらに完成機ではなくパーツ単位で購入して組み上げることで、さらにコストを削減することができた。 2019年度以降、計算アルゴリズムの再検討により、残予算をメモリもしくはストレージ(ハードディスク・SSD)に適切なバランスで振り分け、計算のために適した構成変更を行うための原資とする予定である。
|