研究実績の概要 |
DNA配列から短い保存配列のパターンを検出する問題(モチーフ発見問題)に取り組んだ。モチーフ発見問題はバイオインフォマティクスの古典的問題であり、これまでに数多くのアルゴリズムが提案されてきた。従来法の多くは、古典的なプロモータ解析を対象に開発されてきた。したがって、超高速シーケンサの普及によるデータの大規模化に対し、計算効率および検出性能の劣化が問題になってきた。例えば、ChIP-seqの解析では、長さ数百bp、10^4-10^6個くらいの配列が解析対象となるが、従来法には、長さ10^3 bp、配列数10^2程度のデータしか想定されていない。そこで、ポスト次世代シーケンサのアルゴリズム開発が始まることとなった。しかしながら、これらのアルゴリズムは、計算速度の改善を優先するあまり、検出力の低さが問題となる。本研究では、検出力の改善を最重要課題とし、Repulsive Parallel MCMC(RPMCMC)というモチーフ発見アルゴリズムを開発した。複数個のギブスサンプリングを同時に実行し、サンプル列が互いに接近した際に反発作用を加える。するとサンプル列のアンサンブルは互いに異なる領域に向かうため、一回のサンプリングで多様なモチーフを発見することができることが大きな特徴である。包括的な数値実験を実施し、既存手法に対する高い優位性を示した。開発したプログラムは論文とともに公開した(Ikebata et al., Bioinformatics, 2015)。癌研究への応用では、ChIP-seqのデータを用いて転写共役因子の結合部位を網羅的に発見する問題に取り組んだ。ENCODEの228個のChIP-seqのデータにRPMCMCを適用し、発見されたモチーフとDNA結合タンパク質のアノテーションリストを公開した。
|