• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実施状況報告書

転写伸長過程の数理モデルとベイズ統計に基づく逆問題解法

研究課題

研究課題/領域番号 15K12145
研究機関統計数理研究所

研究代表者

吉田 亮  統計数理研究所, モデリング研究系, 准教授 (70401263)

研究期間 (年度) 2015-04-01 – 2017-03-31
キーワードベイズ統計 / 転写伸長 / 新生転写産物 / RNAシーケンス / 逆問題
研究実績の概要

Total RNA-seq(without poly(A) selection)を活用することで、新生RNAを含む細胞中のRNA分子の量を網羅的に計測することができる。本研究では、Total RNA-seqのリード分布を解析することでRNA ポリメラーゼ II(Pol II)の転写伸長過程を再構成できることを実証する。Pol II は、遺伝子上を5’から3’方向に移動しながら段階的にmRNAを合成する。転写伸長とスプライシングが共役することで、RNA-seqリードの分布には転写伸長速度を反映した鋸状のパターンが出現する。分布特性を決める主な因子は、配列上のPol IIの存在確率(転写伸長の相対速度の逆数)とスプライスパターンである。したがって、リード分布には転写伸長速度とスプライシングの情報が含まれており、逆問題を解けば、これらを復元できる可能性がある。
当該年度は、解析手法のアウトラインを設計し、要素技術のパイプライニングを行った。転写伸長及びスプライス反応の数理モデルを構築し、Pol IIの存在確率とリード分布の変換式をモデリングした。このもとでベイズ推定を行い、Pol IIの存在確率とスプライスパターンの同時推定を行った。人工データや実データに解析手法を適用し、Pol IIの存在確率とスプライス部位の推定精度を検証した。SN比が一定以上の遺伝子に対しては、現行手法は十分な推定性能を達成することが確認された。しかしながら、Total RNA-seqのある特性により、短いイントロンを含む遺伝子ではSN比が極端に低くなることが判明した。したがって、現行手法では全遺伝子規模の解析は難しいと言える。しかしながら、実験面の障壁を乗り越えることができれば、大きな科学的成果に繋がる可能性は大いにある。次年度はこの点について新たな協力者を募り、問題解決の方策を検討する。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

数理モデル及び転写伸長速度の推定手法については、解析基盤はおおむね完成し、プログラムの実装も完了している。人工データと実データを対象に数値実験を行い、SN比が一定水準以上のリード分布を持つ(長い)遺伝子に対しては、現行手法で十分な推定精度を達成することが確認された。ここまではおおむね順調である。
また、プロジェクト開始後に関連分野の動向に注目すべき展開があった。現在、転写伸長速度の網羅的観測を目的にTotal RNA-seq以外の実験技術(GRO-seq、NET-seqなど)が開発されているが、精度やコスト、カバー率の問題があり、依然として広く普及するには至っていない。特に実験コスト及び技術的容易性の観点において、依然としてTotal RNA-seqは転写伸長解析の最も有効な手法である。さらに近年、Total RNA-seqに基づく重要な研究成果が発表されている。これまでイントロンの除去はイントロン終末点における一回の切断で完了すると考えられてきたが、一部のイントロン(特に長いイントロン)は複数回のスプライシングで分割して除去されることが明らかにされた(RS: recursive splicing)。本研究によってTotal RNA-seqのデータにRSのシグナルが含まれていることが確認され、現行手法を用いることでRSの部位を自動検出できる可能性が示された。開発手法の適用対象が広がり、新たな可能性が浮上してきた。

今後の研究の推進方策

基盤技術の更なる高精度化・高度化を推進すると共に、以下に挙げられた生物学的課題に重点的に取り組む。
(1)転写伸長速度とスプライシングの制御関係:本研究の解析手法は、データのパターンを選択的スプライシングとPolⅡ由来の二つのシグナルに分離する。推定結果を元に、転写伸長速度とRSを含むスプライスパターンの関係性を明らかにする。
(2)異なる細胞種のデータを解析して、細胞に特異的な転写伸長速度の違いを特徴付ける。例えば、胎生組織では成体組織に比べて鋸状のパターンがクリアに見える傾向があると報告されている。
(3)転写伸長速度の分布をヌクレオソームの密度やヒストン化学修飾の状態に対応付け、両者の関係性を明らかにする。
実験面のいくつかの技術的困難を乗り越える必要があるが、引き続き、全遺伝子規模の転写伸長速度分布のパターンが明らかにすることを目指す。 全遺伝子規模の転写伸長速度の推定は、いまだ未達成の課題である。最終的には、推定された速度分布を用いて、転写伸長速度とヒストン修飾、クロマチンの状態(エピジェネティクス)、スプライシング異常との関係を調べ、また細胞種による転写伸長過程の違い等を明らかにする。

次年度使用額が生じた理由

平成27年度前半の研究進捗が遅れたため、国際会議を初めとする学会発表を行う機会が想定よりも少なくなった。さらにプログラムの並列化対応が遅れたため、Xeon Phi計算機の購入時期を次年度に移行することにした。

次年度使用額の使用計画

国際会議を初めとする学会発表及びXeon PhiあるいはGPUの購入費用に充てる。

  • 研究成果

    (4件)

すべて 2015

すべて 学会発表 (4件) (うち招待講演 4件)

  • [学会発表] 統計的機械学習に基づくライフサイエンスの方法論2015

    • 著者名/発表者名
      吉田亮
    • 学会等名
      京都大学 第21回 Statistical Bioinformatics Seminar
    • 発表場所
      京都(京都大学)
    • 年月日
      2015-10-21
    • 招待講演
  • [学会発表] ライフサイエンスにおけるベイズ統計の先端応用2015

    • 著者名/発表者名
      吉田亮
    • 学会等名
      名古屋大学大学院医学系研究科 基盤医学特論 オミクス解析学プログラム
    • 発表場所
      名古屋(名古屋大学大学院医学系研究科)
    • 年月日
      2015-10-07
    • 招待講演
  • [学会発表] 生命科学におけるデータサイエンス駆動型アプローチの開拓と実践2015

    • 著者名/発表者名
      吉田亮
    • 学会等名
      がんゲノムの情報と数理
    • 発表場所
      東京(東京大学医科学研究所)
    • 年月日
      2015-09-30
    • 招待講演
  • [学会発表] ライフサイエンス分野における統計科学の先進応用2015

    • 著者名/発表者名
      吉田亮
    • 学会等名
      東京大学医科学研究所 学友会セミナー
    • 発表場所
      東京(東京大学医科学研究所)
    • 年月日
      2015-08-31
    • 招待講演

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi