本年度は前年度に引き続き、がんフェノタイプと分子発現情報の関連を抽出するための方法論開発を行った。主に以下の2点について結果を得た。 1. 擬似疾患進行度の推定手法の開発 2. タンパク質複合体の異常推定である。 一つ目は、フェノタイプに重症度や炎症反応等の順序構造をともなっている場合に、その順序特性を反映した分子発現パターンの応答性を予測するための方法である。フェノタイプ情報を用いずに未知の順序特性と分子発現パターンを推定する関連方法としては多様体学習に基づく擬似時間推定手法が存在する。細胞状態が分子プロファイルに明確に反映されるような1細胞シークエンシングデータでは一定の成功を収めているが、多くの臨床において取得されるバルクRNA-seqデータでは十分に応用が進められていなかった。その理由の一つはサンプルの複雑さであり、様々な交絡因子が含まれるため推定が容易ではなかったことがあげられる。そのため、サンプルの情報を補助的に用いてフェノタイプに関連する分子発現シグナルに基づく擬似時間、すなわち擬似疾患進行度を推定するアルゴリズムを開発した。具体的には正則化順序ロジスティック回帰に基づく順序スコアをもとに低次元空間上へマッピングする方法を開発した。 二つ目は、タンパク質複合体が高い共発現傾向を示す点に着目して、がん特異的な共発現構造の破綻を予測するためのアルゴリズム開発を行なった。いわゆる、タンパク質複合体を対象とした共発現変動解析の枠組みとなるが、タンパク質発現はS/N比が低く、通常のトランスクリプトーム解析で用いられる方法では十分にシグナルを捉えることが難しい。そこでノイズに対して非常に頑健なランクベースの特徴量を用いて、コピュラ関数と呼ばれる統計モデルを用いることで、ロバストな共発現変動解析方法を実現した。
|