2015 Fiscal Year Research-status Report
転写伸長過程の数理モデルとベイズ統計に基づく逆問題解法
Project/Area Number |
15K12145
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
吉田 亮 統計数理研究所, モデリング研究系, 准教授 (70401263)
|
Project Period (FY) |
2015-04-01 – 2017-03-31
|
Keywords | ベイズ統計 / 転写伸長 / 新生転写産物 / RNAシーケンス / 逆問題 |
Outline of Annual Research Achievements |
Total RNA-seq(without poly(A) selection)を活用することで、新生RNAを含む細胞中のRNA分子の量を網羅的に計測することができる。本研究では、Total RNA-seqのリード分布を解析することでRNA ポリメラーゼ II(Pol II)の転写伸長過程を再構成できることを実証する。Pol II は、遺伝子上を5’から3’方向に移動しながら段階的にmRNAを合成する。転写伸長とスプライシングが共役することで、RNA-seqリードの分布には転写伸長速度を反映した鋸状のパターンが出現する。分布特性を決める主な因子は、配列上のPol IIの存在確率(転写伸長の相対速度の逆数)とスプライスパターンである。したがって、リード分布には転写伸長速度とスプライシングの情報が含まれており、逆問題を解けば、これらを復元できる可能性がある。 当該年度は、解析手法のアウトラインを設計し、要素技術のパイプライニングを行った。転写伸長及びスプライス反応の数理モデルを構築し、Pol IIの存在確率とリード分布の変換式をモデリングした。このもとでベイズ推定を行い、Pol IIの存在確率とスプライスパターンの同時推定を行った。人工データや実データに解析手法を適用し、Pol IIの存在確率とスプライス部位の推定精度を検証した。SN比が一定以上の遺伝子に対しては、現行手法は十分な推定性能を達成することが確認された。しかしながら、Total RNA-seqのある特性により、短いイントロンを含む遺伝子ではSN比が極端に低くなることが判明した。したがって、現行手法では全遺伝子規模の解析は難しいと言える。しかしながら、実験面の障壁を乗り越えることができれば、大きな科学的成果に繋がる可能性は大いにある。次年度はこの点について新たな協力者を募り、問題解決の方策を検討する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
数理モデル及び転写伸長速度の推定手法については、解析基盤はおおむね完成し、プログラムの実装も完了している。人工データと実データを対象に数値実験を行い、SN比が一定水準以上のリード分布を持つ(長い)遺伝子に対しては、現行手法で十分な推定精度を達成することが確認された。ここまではおおむね順調である。 また、プロジェクト開始後に関連分野の動向に注目すべき展開があった。現在、転写伸長速度の網羅的観測を目的にTotal RNA-seq以外の実験技術(GRO-seq、NET-seqなど)が開発されているが、精度やコスト、カバー率の問題があり、依然として広く普及するには至っていない。特に実験コスト及び技術的容易性の観点において、依然としてTotal RNA-seqは転写伸長解析の最も有効な手法である。さらに近年、Total RNA-seqに基づく重要な研究成果が発表されている。これまでイントロンの除去はイントロン終末点における一回の切断で完了すると考えられてきたが、一部のイントロン(特に長いイントロン)は複数回のスプライシングで分割して除去されることが明らかにされた(RS: recursive splicing)。本研究によってTotal RNA-seqのデータにRSのシグナルが含まれていることが確認され、現行手法を用いることでRSの部位を自動検出できる可能性が示された。開発手法の適用対象が広がり、新たな可能性が浮上してきた。
|
Strategy for Future Research Activity |
基盤技術の更なる高精度化・高度化を推進すると共に、以下に挙げられた生物学的課題に重点的に取り組む。 (1)転写伸長速度とスプライシングの制御関係:本研究の解析手法は、データのパターンを選択的スプライシングとPolⅡ由来の二つのシグナルに分離する。推定結果を元に、転写伸長速度とRSを含むスプライスパターンの関係性を明らかにする。 (2)異なる細胞種のデータを解析して、細胞に特異的な転写伸長速度の違いを特徴付ける。例えば、胎生組織では成体組織に比べて鋸状のパターンがクリアに見える傾向があると報告されている。 (3)転写伸長速度の分布をヌクレオソームの密度やヒストン化学修飾の状態に対応付け、両者の関係性を明らかにする。 実験面のいくつかの技術的困難を乗り越える必要があるが、引き続き、全遺伝子規模の転写伸長速度分布のパターンが明らかにすることを目指す。 全遺伝子規模の転写伸長速度の推定は、いまだ未達成の課題である。最終的には、推定された速度分布を用いて、転写伸長速度とヒストン修飾、クロマチンの状態(エピジェネティクス)、スプライシング異常との関係を調べ、また細胞種による転写伸長過程の違い等を明らかにする。
|
Causes of Carryover |
平成27年度前半の研究進捗が遅れたため、国際会議を初めとする学会発表を行う機会が想定よりも少なくなった。さらにプログラムの並列化対応が遅れたため、Xeon Phi計算機の購入時期を次年度に移行することにした。
|
Expenditure Plan for Carryover Budget |
国際会議を初めとする学会発表及びXeon PhiあるいはGPUの購入費用に充てる。
|
Research Products
(4 results)