研究実績の概要 |
がんに関わるデータは大規模複雑化しており, 次世代シーケンサーを始め, 質量分析や画像分析に至るまで多種多様なビッグデータが取得可能となりつつある. それに伴い, がんの本態を解 明するための統計解析手法もデータ中心的な転回期を迎えつつある. 従来における多変量解析の 枠組みでは, すべてのデータを数値行列型で表現していたが, 本来データを取り扱う際には, 解 析の背景や目的に応じて, その表現を十分考慮する必要がある. 各観測値をスカラーだけではな く, ヒストグラム, 関数, 木構造などの柔軟な形でデータを表現することにより, 新たな知見を 得ることが期待できる. しかし, これらのデータ表現を解析するための数理基盤および統計解析 手法はいまだ不十分であり, 挑戦的な課題となっている. 当該年度では、同一のがん種内でも患者間でDNAメチル化量に違いのある腫瘍間不均一性という現象に着目し, がん患者群と正常群でメチル化量に差異のあるゲノム領域を同定するために, それらの影響を考慮する必要がある. 本研究では, 多検体のがん患者群と健常者群のメチル化量データにおいて, 各ゲノム領域ごとで分布オブジェクトを構成し, 分布構造に基づき2群間で差異が見られるかを統計的に有意差を調べる方法論を開発した. 本手法により従来の平均や分散のみに基づく方法では, 捉えることが困難な腫瘍内不均一性の同定が可能であることをThe Cancer Genome Atlas (TCGA) コホートデータを用いて示した. また網羅的解析な解析では, 計算量が膨大になることから, ヒトゲノム解析センターのShirokane3上において大規模並列計算のアルゴリズムを実装したソフトウェアを公開を行った.
|