研究概要 |
ゲノム計回では様々な生物のDNA配列の解読が進んでおり,さらにDNA配列中のタンパク質のコーディング領域の推定や,タンパク質の機能の予測などが行われている.また,異なる生物のDNAやアミノ酸配列の間の類似度を計算し,それによつて構造や機能の予測や,進化系統樹の解析が行われている。本研究ではこれらの問題に対する文字列の高次圧縮の研究を目指した.具体的には、文字列を圧縮したまま高速に検索するデータ構造の研究を行った.特に,様々な問題を解く際に用いることができる汎用的な索引の研究を行った.ヒトゲノム27億塩基に対して、任意のパタンを検索可能を索引である接尾辞配列のサイズは約11Gバイトであるが、それを約2Gバイトに圧縮した。索引を圧縮することでコンピュータのメモリ内に格納することが可能になり,高速検索が行える.任意のパタンの高速検索が可能な接尾辞配列の圧縮に関する研究はごく最近に始まったものであり,まだ理論的な結果のみが示されているのみである.実際に索引を構成している例もあるが,データ量はあまり大きくない.本研究では大量のデータに対して実際に索引を作成している.圧縮された索引を用いて配列を検索する場合・圧縮されていない索引を用いた場合と同じアルゴリズムを使えるが,アルゴリズムによっては速度が低下する場合がある.また,索引生成時に必要なメモリ量が大きいため,索引の生成にはスーパーコンピュータを用いてこの問題点を解決した。
|