本研究では、ゲノム高次構造と遺伝子発現との関係を情報科学的アプローチで理解することを目指し、ゲノム三次元構造変化からみられる転写ドメインを計算論的に定義してその定量化に挑戦している。これによって、染色体クロマチン動態の機能的意義に関する新たな知の創出が期待される。一般に、ゲノムの核内三次元構造体は遺伝子発現制御領域を物理的に制約し、多種多様な調節因子とそれらの標的遺伝子の空間的相互作用に直接的に影響を与えると考えられている。しかし、その様相には非常に複雑なダイナミクスが背景にあり、計算科学的モデルが必要不可欠とされる。
本年度では、いままでのB細胞分化に関するデータ解析とマウスES細胞由来のNGSデータ解析と三次構造体の可視化ツールの開発に加えて、機械学習による三次元転写ドメインの具体的な解析方法を開発した。この方法では、まず、制御因子にはHi-Cなどによる長距離コンタクト由来の因子とプロモーター由来の因子の組み合わせを線形回帰モデリングし、グラフエンベディング手法による高次の遺伝子-制御因子間相互作用ネットワークを解析する構成となっている。これにより、いままでの深層学習方法とゲノム・エピゲノム修飾情報(1次元)とコンタクト情報(2次元)を染色体3次元情報と有機的に相互関連付けるウェブツールと組み合わせ、三次元転写ドメイン内に集積するDNA結合転写因子、コファクター、メディエーターなどを推定することができた。
|