研究課題
SEER(The Surveillance, Epidemiology, and End Results)データベースに関して、全癌のデータセットを連結し、時系列にソートして再発と転移のレコードの切り分けを行った。乳癌、大腸癌、子宮癌などについて時系列に沿ってデータを組み直し、予後解析のためのデータセットを構築した。ICGC(International Cancer Genome Consortium)データベースについては乳癌データを基に、関連分析や回帰分析を実行するためのデータ形式に再構成することを試みた。特にシークエンスによるGene expressionレベルデータが巨大であり、64GBメモリを搭載したコンピュータでもフリーズするため、128GBメモリを搭載できるコンピュータを構築中である。ICGCに登録されている乳癌データベースには臨床データが含まれていなかったため、TCGAデータベースのIDとICGCのIDを照合して、TCGAデータベースから取得した臨床データを連結させた。日本のがんデータベースについて、子宮頚癌、卵巣癌、外陰癌などについて予後解析を行い、Journal of Gynecologic Oncologyに論文投稿し、Society of Gynecologic Oncology とAmerican Society of Clinical Oncologyの大会に演題投稿を行った。特に外陰癌はまれな癌であり、1092例を有する本データベースによって予後規定因子の解析を行ったことは意義深く、貴重な成果であると考えられる。
2: おおむね順調に進展している
SEER(The Surveillance, Epidemiology, and End Results)データベースに関して、全癌のデータセットを連結し、時系列にソートして再発と転移のレコードの切り分けを行った。乳癌、大腸癌、子宮癌などについて時系列に沿ってデータを組み直し、予後解析のためのデータセットを構築した。現在これらの再構築データについて精査中である。ICGC(International Cancer Genome Consortium)データベースについては乳癌データを基に、関連分析や回帰分析を実行するためのデータ形式に再構成することを試みた。特にシークエンスによるGene expressionレベルデータが巨大であり、64GBメモリを搭載したコンピュータでもフリーズするため、128GBメモリを搭載できるコンピュータを構築中である。ICGCに登録されている乳癌データベースには臨床データが含まれていなかったため、TCGAデータベースのIDとICGCのIDを照合して、TCGAデータベースから取得した臨床データを連結させた。がんゲノムデータでは複雑な交絡関係があるため、回帰分析の他に複数のMachine Learningの技法により推定して精度を比較する解析環境を準備している。
SEERデータについては時系列データセットについて、予後規定因子の解析を進める。ICGCデータについて、コンピュータ能力が足りなかったが、128GBメモリを搭載できるパーツを入手し、構築する予定である。Machine LearningについてはWekaを導入し、複数のアルゴリズムで推定することを検討しているが、コンピュータの能力不足だった場合にはMicrosoftのクラウドシステムのAzure MLなどの端末能力に依存しないシステムも検討している。
すべて 2017 2016
すべて 雑誌論文 (3件) (うち査読あり 3件)
日医雑誌
巻: 145(10) ページ: 2155-2162
巻: 145(10) ページ: 2163-2168
Journal of Functional Foods
巻: 24 ページ: 492-500