本研究の目的は、造血系や神経系の細胞分化において、1細胞RNA-seqにより得られる細胞の擬似時系列を用いて、細胞が分岐する変化点と各細胞種での遺伝子ネットワークを推定する手法を開発することである。今年度は、変化点と各細胞種における遺伝子ネットワークを同時に推定するための、二重動的計画法に基づいた計算を行うが、遺伝子数や細胞数が多いデータに対しては、計算量が増大するため、並列計算が可能となるように実装を行なった。各遺伝子についての二乗誤差、変化点と各細胞種での遺伝子ネットワーク構造推定の計算について、複数のプロセスによる並列化を行うことで、計算速度が向上した。 遺伝子数が多いデータについては、各頂点での二乗誤差などの独立した計算は、並列化が可能であるが、アムダールの法則に基づき、動的計画法を用いたネットワーク構造推定などの高速化を可能とする全計算過程に対して、並列化を行なった。また、マルチスレッドとは異なり、マルチプロセスを用いた実装のため、CPUの複数コアでの処理が可能となるが、各プロセス間での変数の値を共有できないため、共有メモリを用いることで、プロセス間通信を行う並列化実装を行なった。推定手法を、造血幹細胞分化の1細胞RNA-seqのデータに適用し、十分なサンプル数の発現量データを作成して計算機実験を行い、手法の有効性を検証したところ、シングルコアでの計算速度よりも、かなり計算速度が向上することが分かった。
|