研究課題/領域番号 |
16K09044
|
研究機関 | 東海大学 |
研究代表者 |
柴田 健雄 東海大学, 医学部, 講師 (30366033)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | ICGC / がんデータベース / 乳がん / 卵巣がん / 子宮がん / 大腸がん / SEER |
研究実績の概要 |
International Cancer Genome Consortium(ICGC)に登録されている米国乳がんデータベース(1099ケース)において、登録されている臨床データ項目が少ないため、The Cancer Genome Atlas(TCGA)の乳がんデータに登録されている臨床データとID照合して連結した。ICGCの乳がんデータにおいて、遺伝子発現量について統計解析用にデータマイニングを行い、また、miRNAのnormalized read countとsomatic mutationデータについて、統計解析用のデータマイニングを行っている。病理グレードと各遺伝子発現量との関連を調べるために、Kruskal-Wallis検定を用いて解析を行った。ICGCデータベースをもとに機械学習を用いて病理グレードの予測モデルを作成することを目的として、Wekaソフトウェアのセットアップを行った。一方で、MicrosoftのクラウドマシーンラーニングサービスのAzure MLにアカウントを作りセットアップを行った。また、卵巣がん(586ケース)と子宮がん(308ケース)について、乳癌データと同様にデータマイニングを開始した。 Surveillance, Epidemiology, and End Results Program(SEER)の大腸がんデータにおいて、データマイニングを行い、患者プロファイルの性差の解析を行った。日本の子宮頚癌データにおいて、Cox回帰分析のよって予後因子解析を行った。また、卵巣癌データにおいて、予後解析を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ICGCデータベースにおける遺伝子発現量データにおいて、1ファイル1000遺伝子のファイルを大量に作成することで、統計検定を実施することが出来た。乳癌の病理グレードに関連が強い遺伝子の結果をまとめ、論文執筆を行える。一方、最終ステップの機械学習環境について、端末にWeka環境を設定し、クラウドサービスのAzure MLを利用する環境も設定した。
|
今後の研究の推進方策 |
ICGC乳がんデータベースにおける病理グレードと遺伝子発現量の関連解析結果を整理し、病理グレードと関連が強そうなものから回帰分析と機械学習による予測モデルに投入し、最も予測精度の良いモデルを検証する。卵巣癌と子宮癌データについても同様の解析を進める。 結果がまとまったものから論文執筆する。
|