2019 Fiscal Year Research-status Report
Development of the screening method for biomarkers to predict the response to dCRT in cancer cells by support vector machine.
Project/Area Number |
19K07744
|
Research Institution | National Cancer Center Japan |
Principal Investigator |
飯田 直子 国立研究開発法人国立がん研究センター, 研究所, 研究員 (40360557)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | バイオインフォマティクス / バイオマーカー / がん / DNAメチル化 / SVM |
Outline of Annual Research Achievements |
本研究は、バイオマーカー探索に非線形分離手法を利用し、これまで見つからなかった精度の高い新規バイオマーカーを効率よく同定する方法を確立することを目的としている。該当年度は、データベースとSVMを利用した線形&非線形分離パターンのバイオマーカーの探索において、使用するデータの選別とデータフィルタリングを目的とした。 大規模データベースから1028がん細胞株の256種類の薬剤感受性データ(http://www.cancerrxgene.org)と957がん細胞株のDNAメチル化データ(http://cancer.sanger. ac.uk/cell_lines)を取得した。DNA メチル化データについては、データ照合のためのサンプルIDの整理、最新のヒトゲノムhg38バージョンに相当するアノテーション情報の取得(ref.1)、CpG islandに対する独自のidの作成を行った。DNAメチル化プローブに対するアノテーション付けを行うスクリプトを作成した。薬剤256種のデータセットについては、実験に用いた薬剤濃度と薬剤感受性を表すIC値を評価し、実験的に信頼性が高いデータセットとして9種類の薬剤のデータセットを選んだ。 候補ターゲットプローブのフィルタリングを行うためにTCGAの大量データセットを用いてメチル化値の評価基準を検討し、平均、分散を用いた候補ターゲットプローブの選別を行った。 本研究に関わる発表を、国内学会のポスター発表で行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
該当年度は、データベースとSVMを利用した線形&非線形分離パターンのバイオマーカーの探索において、使用するデータの選別とデータフィルタリングが目標であった。データの選別はIC値の実験データから、信頼性の高い9個に絞ることができた。アノテーション情報の作成については、illumina社が提供するDNAメチル化ビーズアレーinfiniumのアノテーション情報がヒトゲノムhg19バージョンであることから、最新のhg38に相当するアノテーション(ref.1)を公開大規模データベースTCGAから取得した。さらにCpG islandについては、長さ1kb以上のものについてはsub idを作成し、距離を考慮した独自のCpG island のIDを作成した。アノテーション付加を行うスクリプトも作成できた。データフィルタリングにおいて、サンプルのメチル化度合いを評価することが必要であった。そのため、TCGAの大規模データを用いて、プローブ毎のメチル化値の分散や平均値などを調べ、メチル化値の分散を用いる評価基準を定めた。この基準を用いて、候補ターゲットのフィルタリングが出来た。よって、おおむね順調に進展している。 [1]. Zhou, Wanding, Laird Peter L., and Hui Shen. "Comprehensive characterization, annotation and innovative use of Infinium DNA methylation BeadChip probes." Nucleic Acids Research. (2016): doi: 10.1093/nar/gkw967
|
Strategy for Future Research Activity |
1)データフィルタリング 選別した9個のデータセットに対し、本年度に決定した候補ターゲットのデータ抽出とスクリーニング用と検証用データの作成を行う。しかし、データセットによりメチル化値のばらつきは異なると考えられたため、データフィルタリングに用いるパラメーターの変更と結果の評価は続けて行い、必要であれば改良を行う。 2)SVMによるスクリーニングの実行と検証 SVMの実行はPythonの代表的な機械学習用のフレームワークである「scikit-learn」を用いる。スクリーニングにより候補ターゲットを選択することが出来れば、予め確保しておいた検証用データセットに対して、上位候補ターゲットとその最適モデルを用いて薬剤奏効性予測を行う。データ加工から結果までのスクリプトを作成し、パイプライン化し、バイオマーカースクリーニングの手法を確立する。
|