本研究の目的は,巨大シーケンスから散在反復配列構造を高速に分析する手法を開発し,DNAなどの実データに適用して有益な発見を行うことである.最終年度である27年度においては,基本方式の更なる高速化,省メモリ化を進めた他,抽出すべき意味のある反復配列とは何かの検討およびゲノムへの適用実験を行った. 高速化・省メモリ化においては,出現ベースの方式で出現毎に行っていたアライメントを,接尾辞木を利用して重複なく行う方式を開発し実装した. 抽出すべき反復配列に関しては,26年度までに開発した方式では,出現回数kを指定してk 回以上類似文字列が出現する部分文字列を抽出していたが,出現回数が少なくても非常に長い反復配列や短くても出現回数が非常に多い反復配列は,ゲノムなどにおいてそれなりに重要であるのに抽出されないという問題点があった.そこで指定したαに対し,文字列中の個々の反復配列の類似文字列としての出現回数が,同じ長さのランダム文字列中に現れる出現回数分布において上側α%に含まれるものを列挙する方式を考案し,ヒトの第21番染色体に適用して反復配列の抽出を行った結果,既知の反復配列部分の70%以上を検出することに成功した. ゲノムへの適用実験に関しては,実装したプログラムをヒトを含め10程度の種の染色体に適用し,反復配列の抽出を行った. なお,投稿中であった基本アルゴリズムに関する論文がDiscrete Applied Mathematics誌に受理され掲載された.
|