2000 Fiscal Year Annual Research Report
ゲノム配列からの高次圧縮・クラスタリングによる知識発見
Project/Area Number |
12208012
|
Research Institution | The University of Tokyo |
Principal Investigator |
稲葉 真理 東京大学, 大学院・理学系研究科, 講師 (60282711)
|
Co-Investigator(Kenkyū-buntansha) |
定兼 邦彦 東北大学, 大学院・情報科学研究科, 助手 (20323090)
今井 浩 東京大学, 大学院・理学系研究科, 助教授 (80183010)
|
Keywords | ゲノム配列 / 圧縮 / 文脈木重み付け法 / 文字列検索 / 圧縮データベース |
Research Abstract |
DNA配列,たんぱく質配列に対する高圧縮率な圧縮アルゴリズムを開発した.既存の手法ではLZ77圧縮法を元にし,配列中のあいまい一致や回文構造を利用したものが用いられていたが,これと文脈木重み付け法を組み合わせることでDNAに対する圧縮率を改善できた.またたんぱく質に関しては既存の手法ではほとんど圧縮できていなかったが,文脈木重み付け法とあいまい一致を考慮したLZ77法を組み合わせることで高い圧縮率を達成できた.またLZ77圧縮のためのハッシュや接尾辞配列を用いた高速なアルゴリズムも考案した. ゲノム配列データベースは巨大になっているが,これを圧縮したまま高速に検索するデータ構造を考案した.これは接尾辞配列を圧縮したものを用いており,データベース全体を走査することなく任意の文字列を検索できる.またデータベース中の任意の部分を高速に復元するアルゴリズムや,データマイニングで用いられる索引をコンパクトに格納する方法を考案した.実験により,圧縮された配列や文書と,検索のための索引のサイズの合計を元の文書のサイズより小さくできることを示した.このデータ構造を用いてゲノム配列中のあいまい一致を高速に求めるアルゴリズムなどを実現できるため,類似配列の検索などのさまざまな演算を効率よく行うことができる.
|
Research Products
(6 results)
-
[Publications] M.Inaba,N.Katoh and H.Imai: "Variance-Based κ-Clustering Algorithms by Voronoi Diagrams and Randomization"IEICE Trans.Information and Systems. E83-D,6. 1199-1206 (2000)
-
[Publications] T.Matsumoto,K.Sadakane and H.Imai: "Biological Sequence Compression Algorithms"Genome Informatics 2000. 43-52 (2000)
-
[Publications] K.Sadakane: "Compressed Text Databases with Efficient Query Algorithms based on the Compressed Suffix Array"Proceedings of ISAAC'00, Lecture Notes in Computer Science. 1969. 410-421 (2000)
-
[Publications] K.Sadakane and H.Imai: "Improving the Speed of LZ77 Compression by Hashing and Suffix Sorting"IEICE Trans.Fundamentals. E83-A,12. 2689-2698 (2000)
-
[Publications] 定兼邦彦: "圧縮接尾辞配列に関する考察"情報処理学会SIGDBS. (2000)
-
[Publications] K.Sadakane: "Algorithms on Strings based on the Compressed Suffix Arrays"情報処理学会SIGAL. (2000)