研究課題/領域番号 |
20K06606
|
研究機関 | 東京大学 |
研究代表者 |
朴 聖俊 東京大学, 医科学研究所, 准教授 (40759411)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | ゲノム高次構造 / 遺伝子転写制御 / バイオインフォマティクス |
研究実績の概要 |
ゲノム三次元構造は遺伝子発現制御領域を物理的に制約し、多種多様な調節因子とそれらの標的遺伝子の空間的相互作用の場を形成する。ゲノム三次元構造を介した転写制御は正常ゲノム機能維持に必須であり、その破綻は異常細胞分化や発生などの原因となる。高度に複雑なゲノム動態を定量・定性的に解析できる計算科学的手法の確立は、ゲノム高次構造の機能的役割の解明にとって重要な課題の一つである。
本研究では、数理モデリング、深層学習などの情報学的解析手法の研究開発によって、ゲノム三次元構造の定義と定量化、ゲノム・エピゲノム制御因子の網羅的同定を行い、染色体内・染色体間相互作用による転写調節因子の協調様式を明らかにすることを目指している。これによって、ゲノム折り畳み機構の機能的意義に関する新たな知の創出を目的としている。
本年度では、Hi-Cなどの公共NGSデータを用いてゲノム構造変化と遺伝子転写との関係性をモデル化する多変量解析手法を開発した。この研究成果を国内学会で発表し、表彰された。また、非コードDNA領域の機能予測を行う深層学習法の開発に取り組んだ。ここでは、プロモーターとエンハンサーをゲノム配列情報のみで見分ける畳込みニューラルネットワークと、少数データを効果的に学習して非コード領域変異の機能予測を行う半教師付き深層学習法を設計している。これにより、三次元情報を取り入れた空間的転写制御状態モデル化への深層学習の適用が容易になったといえる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度では計算手法のパラメーターチューニングと新規方法の考案が計画目標であった。B細胞分化を題材にした線形回帰モデリングの試行錯誤を通して、染色体内・染色体間のゲノムコンタクトと遺伝子転写制御との高次相関を同定することができ、さらにこのアプローチにおけるエピゲノム情報の有用性を明らかにすることができた(IIBMP2020優秀口頭発表賞受賞)。
本研究課題遂行の要である「空間的転写制御状態のモデル化」には多変量隠れマルコフモデル(HMM)の実装を計画しているが、本年度では、既存HMMの拡張に比べて新規性の優れた深層学習法の予備的実装・開発を試みた。とりわけ、半教師付き深層学習法によって少ない学習データから最大限の予測性能を発揮する方法の開発に成功している(InCob2020 Best Paper Presentation受賞)。この方法は、転写制御に関わる局所的三次元構造の状態予測と組織・細胞間比較解析に用いる予定である。また、DNA配列情報のみから非コード領域のプロモーターとエンハンサー活性を識別する畳込みニューラルネットワーク(CNN)を開発しており、これはゲノムコンタクト部位の機能的特徴抽出に用いることができる。現在、これらの手法のブラッシングとデータ集約を進めている。
|
今後の研究の推進方策 |
本年度に得られた成果を基に、今後、提案手法の多角的な精査を重ねると共にHMMの開発にも着手し、三次元情報を取り入れた転写制御部位のモデリングの有効性を確かめる予定である。多変量HMMの学習と推定にEMアルゴリズムとViterbiアルゴリズムを採用するが、初期パラメーターやアルゴリズムの妥当性を客観的に検討する。公共データの集約について、研究代表者が開発・公開しているOpenLooper, OpenContamiを活用してクオリティコントールを行い、手法のチューニングとベンチマークに用いる。これによって、転写制御領域の空間的近傍で検出される調節因子間の協調性を推定し、ゲノム高次構造を介した遺伝子発現制御の仕組みを探求する。
|
次年度使用額が生じた理由 |
参加予定であった会議のオンライン化による旅費に差が生じた。今後の出版関連経費として使用する計画である。
|