研究概要 |
DNA配列,たんぱく質配列に対する高圧縮率な圧縮アルゴリズムを開発した.既存の手法ではLZ77圧縮法を元にし,配列中のあいまい一致や回文構造を利用したものが用いられていたが,これと文脈木重み付け法を組み合わせることでDNAに対する圧縮率を改善できた.またたんぱく質に関しては既存の手法ではほとんど圧縮できていなかったが,文脈木重み付け法とあいまい一致を考慮したLZ77法を組み合わせることで高い圧縮率を達成できた.またLZ77圧縮のためのハッシュや接尾辞配列を用いた高速なアルゴリズムも考案した. ゲノム配列データベースは巨大になっているが,これを圧縮したまま高速に検索するデータ構造を考案した.これは接尾辞配列を圧縮したものを用いており,データベース全体を走査することなく任意の文字列を検索できる.またデータベース中の任意の部分を高速に復元するアルゴリズムや,データマイニングで用いられる索引をコンパクトに格納する方法を考案した.実験により,圧縮された配列や文書と,検索のための索引のサイズの合計を元の文書のサイズより小さくできることを示した.このデータ構造を用いてゲノム配列中のあいまい一致を高速に求めるアルゴリズムなどを実現できるため,類似配列の検索などのさまざまな演算を効率よく行うことができる.
|