研究領域 | ゲノムアダプテーションのシステム的理解 |
研究課題/領域番号 |
25125709
|
研究種目 |
新学術領域研究(研究領域提案型)
|
研究機関 | 東京工業大学 |
研究代表者 |
瀬々 潤 東京工業大学, 情報理工学(系)研究科, 准教授 (40361539)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
キーワード | バイオインフォマティクス / 多重検定補正 / ゲノム構造変異 / 1塩基置換 |
研究概要 |
ゲノムアダプテーションを数理的に考える.種sのゲノムの状態ベクトルxに対し,生命システムの状態をS(x|s)と表すと,S(x|s)が安定して存在できるxの範囲がゲノムアダプテーションの範囲と考えられる.今まで,ゲノム情報が得られる種や個体数が限られていたため,これらのxの存在しうる範囲を決めることは容易ではなかったが,次世代シーケンサ等の技術進歩によって,様々な個体,様々な種からのゲノム情報が観測可能になり,徐々に現実的となっている.本研究の目的は,このxの可動範囲を決めるために必要な数理・情報・統計技術の開発である. 本研究では,この目的達成に向け2つの方向性で研究を行っている.第一に,複合要因を発見できる数理統計解析手法の開発である.ゲノムが特定の現象にアダプテーションを起こすためには,1つの遺伝子や1つのSNPなどの特定の現象だけで説明できるわけではなく,多くの,特に未知の現象は,複数の現象が重なって表に見えると考えられる.ところが,複数の要因の重ね合わせを発見するには,単純な統計的優位性ではなく,複数の検定を行った「多重検定」時に現れる偽陽性に関して,補正を行った後の状態で,統計的な優位性を確保される必要がある.一方で,現在利用されるBonferroni法を始めとする多重検定法は,補正の近似が甘いために,特に複合要因が組み合わさった現象を発見する際には,1つも有意な結果を生まない事が多々あった.本研究では,我々が作成した,この多重検定補正の問題を解消する手法LAMPを改良し,ゲノムアダプテーションに利用できるように制約条件の導入と高速化を行っている. もう一つは,ゲノムの構造変異検出である.現在までに,構造変異を発見する手法としてBreakdancerをはじめとして,複数のソフトウエアが開発されているが,結果に多く偽陽性が含まれている事が分かり,手法の改良を進めている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度は,ゲノムアダプテーション基盤の数理統計に関する基礎的な理論を構築することが出来た. まず,複合要因を発見する数理統計手法であるが,複数の検定を行った時に偽陽性の生まれる確率が増加する数理統計の「多重検定」という問題に対して,現在広く利用されているBonferroni法やその改良手法が有する,近似が甘く正しい補正ができない問題を解消するための手法を本課題が採択される前より研究を開始していた.その成果として,Limitless Arty Multiple testing Procedure (LAMP)を発表した.この研究は従来法に比べれば,格段に精度,速度共に改善しており,当初の計画を上回る速度で研究が進展している.しかし,依然として,SNPsに見られるような大規模なゲノム解析に適用するには,速度,精度共に問題を有している.本年度は,この手法を改良することで,速度は遅くなるが精度の高い方法と,精度は変わらないがより高速に求まる方法を作成した.次年度,これらを実際の解析へと広げていく. 次に,ゲノムの構造変異を求める手法の開発を行った.これまで,ゲノムのリシークエンシングデータからゲノムの構造変異を求める手法として,Breakdancerを始めとする手法が提案されているが,いずれも高い偽陽性出現率に問題があった.例えば,マウスから得たあるデータに対しBreakdancerを利用すると3千を超える構造異常が発見されたが,実際に調査をすると,真実といえるものが殆ど見つからない.その殆どがコントロールのマウスでも観測される変異である事に着目し,コントロールから有意に異なる点を見つけることで,より確度の高い構造変異情報を得る事に成功している.これは,年度当初に予想した以上の進度である.
|
今後の研究の推進方策 |
今後は,今まで開発してきた数理統計手法の発展を行うと共に,応用を進めていく. 第一に,LAMPの多様化,精度向上と高速化である.成熟したアルゴリズムには精度と速度の間にはトレードオフの関係があるが,LAMPはまだ萌芽的な段階である.例えば,多重検定補正の基準には,広く様々な分野で利用され,LAMPも利用しているFamilyWise Error Rate (FWER)の他に,生命系を中心に利用している False Discovery Rate (FDR)も存在している.この基準を利用できるようにすることは,基礎理論としての幅を広げる上で重要である.また,ゲノムアダプテーションの理解に向けた,改良も必要である.例として,全ゲノムに渡るSNPs観測データを扱うには,LAMPは,速度が遅い.これらを改良して,ゲノムアダプテーションの理解へと繋げる. 第二に,構造変異に関する更なる精度の向上である.特に癌細胞などで,大規模な構造変異が起こっている事が知られており,それでも細胞として体をなしているということは,ゲノムの可動範囲は,知られている以上に広いことを示していると考えられる.構造変異を発見する技術を進展させることで,ゲノムアダプテーションの限界を調べることを可能とする.
|