2013 Fiscal Year Annual Research Report
第二世代モチーフ解析法に基づくがん細胞に特異的な転写制御経路の発見
Publicly Offered Research
Project Area | Integrative Systems Understanding of Cancer for Advanced Diagnosis, Therapy and Prevention |
Project/Area Number |
25134716
|
Research Category |
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
吉田 亮 統計数理研究所, モデリング研究系, 准教授 (70401263)
|
Project Period (FY) |
2013-04-01 – 2015-03-31
|
Keywords | モチーフ発見問題 / マルコフ連鎖モンテカルロ 法 / ゲノム / 転写 / 並列計算 |
Research Abstract |
DNAシーケンスに埋め込まれた短い保存配列を検出する問題に取り組み(モチーフ発見問題)、長さ10^3bp、配列数のオーダ10^4のデータセットを対象にモチーフ発見アルゴリズムを開発した。モチーフ発見問題は生物情報学創世期からの研究対象であり、現在までに様々な方法論が提案されてきた。しかしながら、近年のデータの大規模化に際し、従来のアルゴリズムは機能を果たせなくなりつつある。従来法には長さ10^3bp、配列数のオーダで10^2程度のデータサイズしか想定されておらず、計算量と検出性能の両面でデータの大規模化にスケーリングしない。例えば、ChIP-seqのデータ解析では、ピーク検出で10^4個ほどの配列断片を切り出した後、モチーフを発見することで転写因子と転写共役因子の認識配列を同定する。従来の方法では、この問題を解くことができない。 本研究では、PRMCMC法(repulsive parallel MCMC)という方法を開発した。設計概念は、以下のように説明される:複数のモチーフ発見アルゴリズムを並列に実行し、各プロセスの間に反発作用を加え、各々が異なるモチーフ配列に到達するように作業分担させる。この作業分担の機能により、多様なモチーフ配列を重複なく、一回の並列計算で網羅的に検出・列挙することが可能になる。従来法のいずれにも、このような設計概念はなく、多様なモチーフの同定というタスクにおいて他のアルゴリズムの性能を凌駕する。当該年度は、アルゴリズムの基本設計と実装面の強化、機能拡充を重点的に推進した。また従来法との性能比較を行い、安定して検出性能が改善することを実証した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
アルゴリズムの設計と実装、性能評価実験はほぼ完了し、現在は論文発表とがん細胞のChIP-seqデータに適用する準備を進めている。
|
Strategy for Future Research Activity |
ソフトウェアの公開を推進する。がんゲノムの研究では、ChIP-seqに開発手法を適用し、がん特異的に働く転写因子と転写共役因子の対を網羅的に検出することにチャレンジする。
|
Research Products
(4 results)