研究領域 | システム的統合理解に基づくがんの先端的診断、治療、予防法の開発 |
研究課題/領域番号 |
25134716
|
研究種目 |
新学術領域研究(研究領域提案型)
|
研究機関 | 統計数理研究所 |
研究代表者 |
吉田 亮 統計数理研究所, モデリング研究系, 准教授 (70401263)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
キーワード | モチーフ発見問題 / マルコフ連鎖モンテカルロ 法 / ゲノム / 転写 / 並列計算 |
研究概要 |
DNAシーケンスに埋め込まれた短い保存配列を検出する問題に取り組み(モチーフ発見問題)、長さ10^3bp、配列数のオーダ10^4のデータセットを対象にモチーフ発見アルゴリズムを開発した。モチーフ発見問題は生物情報学創世期からの研究対象であり、現在までに様々な方法論が提案されてきた。しかしながら、近年のデータの大規模化に際し、従来のアルゴリズムは機能を果たせなくなりつつある。従来法には長さ10^3bp、配列数のオーダで10^2程度のデータサイズしか想定されておらず、計算量と検出性能の両面でデータの大規模化にスケーリングしない。例えば、ChIP-seqのデータ解析では、ピーク検出で10^4個ほどの配列断片を切り出した後、モチーフを発見することで転写因子と転写共役因子の認識配列を同定する。従来の方法では、この問題を解くことができない。 本研究では、PRMCMC法(repulsive parallel MCMC)という方法を開発した。設計概念は、以下のように説明される:複数のモチーフ発見アルゴリズムを並列に実行し、各プロセスの間に反発作用を加え、各々が異なるモチーフ配列に到達するように作業分担させる。この作業分担の機能により、多様なモチーフ配列を重複なく、一回の並列計算で網羅的に検出・列挙することが可能になる。従来法のいずれにも、このような設計概念はなく、多様なモチーフの同定というタスクにおいて他のアルゴリズムの性能を凌駕する。当該年度は、アルゴリズムの基本設計と実装面の強化、機能拡充を重点的に推進した。また従来法との性能比較を行い、安定して検出性能が改善することを実証した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
アルゴリズムの設計と実装、性能評価実験はほぼ完了し、現在は論文発表とがん細胞のChIP-seqデータに適用する準備を進めている。
|
今後の研究の推進方策 |
ソフトウェアの公開を推進する。がんゲノムの研究では、ChIP-seqに開発手法を適用し、がん特異的に働く転写因子と転写共役因子の対を網羅的に検出することにチャレンジする。
|