研究概要 |
ゲノムの配列データは、DNAを構成する4種類の塩基G(グアニン)、A(アデニン)、T(チミン)、C(シトシン)で表現される文字列である。ホモロジー検索は、進化・系統分類の解析、蛋白質の機能解析などを目的とした配列解析の最も基本的な手法の一つとなっている。現在最も頑健なアルゴリズムとして、Smith-Watermanアルゴリズムがあるが、その計算を行うことは時間的に現実的ではない。遺伝子データベースのデータ量が急速に増えている現状を考えると、さらに実行時間の大幅な増加を意味する。現状では、精度と検索速度が両立できる塩基配列の高速検索法はまだ実現されていない。本研究では、必要最小限のSmith-Watermanアルゴリズムによるアライメント処理と組み合わせたベクトル量子化による高精度かつ高速な塩基配列の検索手法を試みた。今年度の研究成果は以下のようになる。 高速検索するための塩基配列の特徴量抽出手法を開発した。塩基配列のヒストグラム特徴を生成するため、従来のベクトル量子化と違い、あらかじめ64という小さいサイズの3次元塩基ベクトルとインデックス番号の参照テーブルを用意することにより、ベクトル量子化は非常に高速で実行できた。それから、各インデックス番号の使用頻度を数え、簡単に塩基配列のヒストグラム特徴を生成できた。 提案するベクトル量子化による高速塩基配列検索手法の有効性を検証するため、検索範囲を減らす実験を行った。米国生物工学情報センター(NCBI)が提供している、塩基配列データを蓄積・提供している世界的な公共の塩基配列データベースであるGenBankのサブデータベースを利用し、全体162,021個(配列長400~500)の塩基配列を検索するより提案手法を使って、約0.36%に当たる584個の塩基配列を検索するだけで同じ結果が得られた。Smith-Waterman手法を使って塩基配列の全体検索でかかった約2時間で、ベクトル量子化手法を加えたことによって、約0.39%に当たる約28.6秒で同じ結果を得ることができた。
|