研究領域 | システム的統合理解に基づくがんの先端的診断、治療、予防法の開発 |
研究課題/領域番号 |
25134716
|
研究種目 |
新学術領域研究(研究領域提案型)
|
配分区分 | 補助金 |
審査区分 |
複合領域
|
研究機関 | 統計数理研究所 |
研究代表者 |
吉田 亮 統計数理研究所, モデリング研究系, 准教授 (70401263)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
研究課題ステータス |
完了 (2014年度)
|
配分額 *注記 |
3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2014年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2013年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | モチーフ発見問題 / ゲノム / 転写因子 / ChIP-seq / ベイズ統計 / マルコフ連鎖モンテカルロ法 / マルコフ連鎖モンテカルロ 法 / 転写 / 並列計算 |
研究実績の概要 |
DNA配列から短い保存配列のパターンを検出する問題(モチーフ発見問題)に取り組んだ。モチーフ発見問題はバイオインフォマティクスの古典的問題であり、これまでに数多くのアルゴリズムが提案されてきた。従来法の多くは、古典的なプロモータ解析を対象に開発されてきた。したがって、超高速シーケンサの普及によるデータの大規模化に対し、計算効率および検出性能の劣化が問題になってきた。例えば、ChIP-seqの解析では、長さ数百bp、10^4-10^6個くらいの配列が解析対象となるが、従来法には、長さ10^3 bp、配列数10^2程度のデータしか想定されていない。そこで、ポスト次世代シーケンサのアルゴリズム開発が始まることとなった。しかしながら、これらのアルゴリズムは、計算速度の改善を優先するあまり、検出力の低さが問題となる。本研究では、検出力の改善を最重要課題とし、Repulsive Parallel MCMC(RPMCMC)というモチーフ発見アルゴリズムを開発した。複数個のギブスサンプリングを同時に実行し、サンプル列が互いに接近した際に反発作用を加える。するとサンプル列のアンサンブルは互いに異なる領域に向かうため、一回のサンプリングで多様なモチーフを発見することができることが大きな特徴である。包括的な数値実験を実施し、既存手法に対する高い優位性を示した。開発したプログラムは論文とともに公開した(Ikebata et al., Bioinformatics, 2015)。癌研究への応用では、ChIP-seqのデータを用いて転写共役因子の結合部位を網羅的に発見する問題に取り組んだ。ENCODEの228個のChIP-seqのデータにRPMCMCを適用し、発見されたモチーフとDNA結合タンパク質のアノテーションリストを公開した。
|
現在までの達成度 (段落) |
26年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
26年度が最終年度であるため、記入しない。
|