研究実績の概要 |
SEER(The Surveillance, Epidemiology, and End Results)データベースに関して、全癌のデータセットを連結し、時系列にソートして再発と転移のレコードの切り分けを行った。乳癌、大腸癌、子宮癌などについて時系列に沿ってデータを組み直し、予後解析のためのデータセットを構築した。早期乳がんのデータにおいて、状態遷移確率が時系列に一定でないモデルのnon-honogeneous Markov chain modelを用いて、再発から死亡への状態遷移が大きく変化する時点を探索しようとしたが、再発や転移の確認日のデータが不自然なケースが多く見られ、信頼性のある結果が得られる可能性が低いように見受けられた。 ICGC(International Cancer Genome Consortium)データベースについて、病理グレードとシーケンスデータの遺伝子発現量とmiRNAのnormalized read countとの関連を調べるために、Kruskal-Wallis検定を用いて解析を行った。乳癌のデータから解析を行ったが、卵巣癌についてもKruskal-Wallis検定で関連解析を行うためのデータセットを作成して解析を行っている。乳癌における病理グレードとシーケンスデータの関連解析について、論文執筆中である。 変数が膨大となり、相互関係および交絡因子の確認がロジスティック回帰分析では困難なため、機械学習を行うためにWekaおよびAzure MLに機械学習環境を構築した。乳癌データにおいて投入変数と収束条件について試行錯誤している。
|