研究課題/領域番号 |
20K06606
|
研究機関 | 東京大学 |
研究代表者 |
朴 聖俊 東京大学, 医科学研究所, 准教授 (40759411)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | ゲノム高次構造 / 遺伝子転写制御 / バイオインフォマティクス |
研究実績の概要 |
本研究では、ゲノム三次元構造と遺伝子発現制御の関係を数理モデリング、深層学習などの情報学的解析手法で理解することを目指している。とりわけ、ゲノム三次元構造の定義と定量化を試み、ゲノム・エピゲノム制御因子の染色体内・染色体間相互作用のモデル化に挑戦している。これによって、ゲノム折り畳み機構の機能的意義に関する新たな知の創出が期待される。一般に、ゲノムの核内三次元構造体は遺伝子発現制御領域を物理的に制約し、多種多様な調節因子とそれらの標的遺伝子の空間的相互作用に直接的に影響を与えると考えられている。その高度に複雑なダイナミクスの理解には生化学・分子実験的アプローチとあわせて、新規の計算科学的手法が必要とされる。
本年度では、いままでのB細胞分化に関するデータ解析と深層学習方法の開発に加えて、関連データの豊富なマウスES細胞由来のNGSデータ解析と三次構造体の可視化ツールの開発を行った。マウスES細胞の公共NGSデータ解析では、大量のHi-C、RNA-seq、ChIP-seq、ATAC-seqなどを統合解析し、TADやクロマチンループの同定と特徴抽出を行うことでゲノム構造、転写、エピゲノム状態を詳細にプロファイリングすることができた。この情報を取り入れた空間的転写制御状態モデリングを進めている。ゲノム構造の可視化は、Hi-Cなどのコンタクトマトリクスからターゲットゲノム部位の三次元構造を予測・可視化するツールを開発した。このツールは、既存オープンソースをもとにしたウェブアプリであり、ゲノム・エピゲノム修飾情報(1次元)とコンタクト情報(2次元)を染色体3次元情報と有機的に相互関連付ける仕様となっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
前年度に引き続き、計算手法のパラメーターチューニングを行った。線形回帰モデリングを通してヒトB細胞分化における染色体内・染色体間のゲノムコンタクトと遺伝子転写制御との高次相関を明確化することができた。また、DNA配列情報のみから非コード領域のプロモーターとエンハンサー活性を識別する畳み込みニューラルネットワーク(CNN)の開発に成功し、論文報告した。
これまでの研究により、多変量解析と深層学習でゲノムコンタクトの機能的特徴抽出が可能となったことから、本年度では用いるデータと解析基盤の拡充に注力した。まず、関連NGSデータの豊富なマウスES細胞を題材に、40サンプル以上のChIP-seqデータ、Hi-C 9サンプル、ESC、MEF、NPC由来のRNA-seq 計25サンプル、ATAC-seq 4サンプルなどを含む大規模解析を行った。そして、複数のアルゴリズムによるコンタクトドメインの境界同定と特徴抽出、転写との相関解析を詳細に行った。この情報は計算手法の精度向上に使用する予定である。つぎに、同定されたドメインの立体構造と、それに対応するゲノム部位にみられるコンタクト確率と各種ChIP-seqシグナルなどを有機的に関連付けて解析・可視化するウェブアプリを開発した。オープンソースのソフトウェア群と独自の解析パイプラインをJavaScriptとPHPで加工して製作した本ツールにより、ここで研究開発した手法のシームレスな検証と提供が容易となった。今後、ブラシュアップを施し、一般に公開する予定である。
一方、多変量HMMの設計がやや遅れている。これは、上述のような使用データ集約といままでボトルネットであった可視化ツールの開発に予定外の時間を要したからである。
|
今後の研究の推進方策 |
最終年度に向かって、三次元情報を取り入れた転写制御部位の数理モデリングの確立を目指す。当初、計画していた多変量HMMの設計が遅れているが、本年度までの成果を活用して、転写制御領域の空間的近傍で検出される調節因子間の協調性を効率よく推定し、ゲノム高次構造を介した遺伝子発現制御の仕組みを明らかにする。学会発表、論文発表などの研究結果の一般公開にも力を入れる。
|
次年度使用額が生じた理由 |
前年度と同様、参加予定であった会議のオンライン化による旅費に差が生じた。今後の出版関連経費として使用する計画である。
|