研究概要 |
ゲノムの配列データは、DNAを構成する4種類の塩基G(グアニン)、A(アデニン)、T(チミン)、C(シトシン)で表現される文字列である。ホモロジー検索は、進化・系統分類の解析、蛋白質の機能解析などを目的とした配列解析の最も基本的な手法の一つとなっている。現在最も頑健なアルゴリズムとして、Smith-Waterman(SW)アルゴリズムがあるが、その計算を行うことは時間的に現実的ではない。遺伝子データベースのデータ量が急速に増えている現状を考えると、さらに実行時間の大幅な増加を意味する。現状では、精度と検索速度が両立できる塩基配列の高速検索法はまだ実現されていない。本研究では、必要最小限のSWアルゴリズムによるアライメント処理と組み合わせたベクトル量子化による高精度かつ高速な塩基配列の検索手法を試みた。今年度の研究成果は以下のようになる。 配列の長さ不一致の対応策として、ローカル検索手法を導入し検討した。入力塩基配列を小さいサイズの塩基配列に分割し、各々の部分配列はデータベース中の塩基配列に最も似ている部分を探し出し、そこから類似度が上がらないまで左右伸長させ、部分配列の類似度を計算する。得られた各々の類似度を組み合わせて配列の総合類似度にし、あらかじめ設定した閾値と比較し、閾値を上回る塩基配列のみに対して、必要最小限のアライメント処理を行う。ローカル検索によって、配列間の似ている部分だけを照合させるので、検索のロバスト性が図れる。提案手法の有効性を検証するため、検索範囲を減らす実験を行った。世界的な公共の塩基配列データベースであるGenBankのサブデータベースを利用し、全体853,825個(配列長400~2000)の塩基配列を全検索するのと比べ、提案手法を使って、約0.269%に当たる2301個の塩基配列を検索するだけで同じ結果が得られた。SW手法を使って塩基配列の全体検索でかかった約2時間で、提案手法は約0.52%に当たる約37.4秒で同じ結果を得ることができた。また、代表的な高速手法であるBLASTにより2.78倍速くなった。
|