2019 Fiscal Year Research-status Report

Development of the screening method for biomarkers to predict the response to dCRT in cancer cells by support vector machine.

Research Project

Project/Area Number	19K07744
Research Institution	National Cancer Center Japan
Principal Investigator	飯田直子国立研究開発法人国立がん研究センター, 研究所, 研究員 (40360557)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	バイオインフォマティクス / バイオマーカー / がん / DNAメチル化 / SVM
Outline of Annual Research Achievements	本研究は、バイオマーカー探索に非線形分離手法を利用し、これまで見つからなかった精度の高い新規バイオマーカーを効率よく同定する方法を確立することを目的としている。該当年度は、データベースとSVMを利用した線形＆非線形分離パターンのバイオマーカーの探索において、使用するデータの選別とデータフィルタリングを目的とした。大規模データベースから1028がん細胞株の256種類の薬剤感受性データ（http://www.cancerrxgene.org）と957がん細胞株のDNAメチル化データ(http://cancer.sanger. ac.uk/cell_lines)を取得した。DNA メチル化データについては、データ照合のためのサンプルIDの整理、最新のヒトゲノムhg38バージョンに相当するアノテーション情報の取得（ref.1）、CpG islandに対する独自のidの作成を行った。DNAメチル化プローブに対するアノテーション付けを行うスクリプトを作成した。薬剤256種のデータセットについては、実験に用いた薬剤濃度と薬剤感受性を表すIC値を評価し、実験的に信頼性が高いデータセットとして９種類の薬剤のデータセットを選んだ。候補ターゲットプローブのフィルタリングを行うためにTCGAの大量データセットを用いてメチル化値の評価基準を検討し、平均、分散を用いた候補ターゲットプローブの選別を行った。本研究に関わる発表を、国内学会のポスター発表で行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 該当年度は、データベースとSVMを利用した線形＆非線形分離パターンのバイオマーカーの探索において、使用するデータの選別とデータフィルタリングが目標であった。データの選別はIC値の実験データから、信頼性の高い９個に絞ることができた。アノテーション情報の作成については、illumina社が提供するDNAメチル化ビーズアレーinfiniumのアノテーション情報がヒトゲノムhg19バージョンであることから、最新のhg38に相当するアノテーション（ref.1）を公開大規模データベースTCGAから取得した。さらにCpG islandについては、長さ1kb以上のものについてはsub idを作成し、距離を考慮した独自のCpG island のIDを作成した。アノテーション付加を行うスクリプトも作成できた。データフィルタリングにおいて、サンプルのメチル化度合いを評価することが必要であった。そのため、TCGAの大規模データを用いて、プローブ毎のメチル化値の分散や平均値などを調べ、メチル化値の分散を用いる評価基準を定めた。この基準を用いて、候補ターゲットのフィルタリングが出来た。よって、おおむね順調に進展している。 [1]. Zhou, Wanding, Laird Peter L., and Hui Shen. "Comprehensive characterization, annotation and innovative use of Infinium DNA methylation BeadChip probes." Nucleic Acids Research. (2016): doi: 10.1093/nar/gkw967
Strategy for Future Research Activity	１）データフィルタリング選別した９個のデータセットに対し、本年度に決定した候補ターゲットのデータ抽出とスクリーニング用と検証用データの作成を行う。しかし、データセットによりメチル化値のばらつきは異なると考えられたため、データフィルタリングに用いるパラメーターの変更と結果の評価は続けて行い、必要であれば改良を行う。２）SVMによるスクリーニングの実行と検証 SVMの実行はPythonの代表的な機械学習用のフレームワークである「scikit-learn」を用いる。スクリーニングにより候補ターゲットを選択することが出来れば、予め確保しておいた検証用データセットに対して、上位候補ターゲットとその最適モデルを用いて薬剤奏効性予測を行う。データ加工から結果までのスクリプトを作成し、パイプライン化し、バイオマーカースクリーニングの手法を確立する。

Research Products
(1 results)

All Presentation (1 results)

[Presentation] サポートベクターマシーンを用いたエピジェネティックマーカー同定手法の確立2019
- Author(s)
  飯田直子
- Organizer
  エピジェネティクス研究会