2010 Fiscal Year Annual Research Report
Project/Area Number |
22700319
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
清水 佳奈 独立行政法人産業技術総合研究所, 生命情報工学研究センター, 研究員 (60367050)
|
Keywords | ギガシークエンスデーター / 類似配列検索 / 編集距離 / 最小全域木 / ショートリード |
Research Abstract |
今年度は、ギガシークエンスデータの特徴を十分検討し、研究の基礎となるアルゴリズムの開発に注力した。具体的には、大量のギガシークエンスデータから類似のペアを超高速に列挙するアルゴリズムを考案した。考案したアルゴリズムは、編集距離による検索を行う。編集距離が閾値d以内の配列間では、配列をb個(b>d)に分割した場合、少なくともb-d個において文字列のパターンがずれ幅d/2以内で一致することを明らかにした。この性質を利用し、部分的に文字列が一致する配列のセットを計算コストの低いソートにより求め、計算コストの高い編集距離計算の回数を効果的に削減することで検索の高速化を達成した。通常の編集距離に加え、生物配列の比較に重要なギャップ開始、伸長コストも考慮することができる。従来手法と比較して数十~数千倍の速度を達成した。考案したアルゴリズムを実装し、スタンドアロンプログラム、及びC++言語用のライブラリを公開した。また、考案したアルゴリズムの応用例として、大量のギガシークエンスデータから高速に最小全域木を構築するプログラムの開発も行った。最小全域木の構築では短連結法によるクラスタリングと同じ結果が得られるため、ギガシークエンスデータの解析に直接役立つ。開発したプログラムは、隣接行列を保持せず、逐次形状を更新しながら全域木を構築するため、メモリを大量に消費しない。リード数1000万の実データに対して計算を行ったところ、3G程度のメモリを用いて10分以内に最小全域木を構築することができた。類似ペア検索の応用範囲は広く、上記に述べたクラスタリングの他にも、共通パターンの発見、アセンブリの効率化などに役立つと期待される。
|
Research Products
(5 results)