研究実績の概要 |
トランスクリプトームデータのみを用いて、スプライシング変異を同定する種々のアルゴリズム・ソフトウェアの開発を行なった。第1に、イントロン残存を引き起こすゲノム変異の同定を行うアルゴリズム、iravnetの開発・チューニングを実施し、さらにSequence Read Archive上に登録されている約20 万検体のトランスクリプトームデータに対して、クラウドやオンプレのスパコン上でiravnetを効率的に実行する情報基盤の開発を通じ、スクリーニングの実行した。さらに、ClinVarなどの疾患関連データベースに登録されている変異との位置関係から、疾患関連変異の同定を行うワークフローの開発し、総計で1000以上の疾患関連変異の候補を同定した。第2に、ゲノム変異によって新しくスプライシングモチーフが生成され、その場所で新たなスプライシングの切断点を生じさせる形式の変異がある(スプライスサイト生成変異)。こういった変異は、コーディング領域上の同義的置換変異や深部イントロンに潜んでおり同定が非常に難しい。そこで、我々はスプライスサイト生成変異をトランスクリプトームデータのみを用いて検出する方法論(juncmut)の開発を進めた。開発した方法論をThe Cancer Genome Atlasの約10,000のデータに適用し、種々のがん遺伝子におけるスプライスサイト生成変異の同定を行なった。最後に、比較的高頻度にスプライシング変異が頻発する遺伝子・部位(TP53, CDKN2Aなど)において、転写異常の形態を特徴量とした機械学習の方法論の構築を行い、スプライシング変異の有無を予測するアルゴリズムの開発を行った。TCGAのデータに適用して、開発した方法論の検証を行なった。
|