ゲノム配列からの高次圧縮・クラスタリングによる知識発見

研究課題

研究課題/領域番号	12208012
研究種目	特定領域研究(C)
配分区分	補助金
審査区分	生物系
研究機関	東京大学
研究代表者	稲葉真理東京大学, 大学院・理学系研究科, 講師 (60282711)
研究分担者	定兼邦彦東北大学, 大学院・情報科学研究科, 助手 (20323090) 今井浩東京大学, 大学院・理学系研究科, 助教授 (80183010)
研究期間 (年度)	2000
研究課題ステータス	完了 (2000年度)
キーワード	ゲノム配列 / 圧縮 / 文脈木重み付け法 / 文字列検索 / 圧縮データベース
研究概要	DNA配列,たんぱく質配列に対する高圧縮率な圧縮アルゴリズムを開発した.既存の手法ではLZ77圧縮法を元にし,配列中のあいまい一致や回文構造を利用したものが用いられていたが,これと文脈木重み付け法を組み合わせることでDNAに対する圧縮率を改善できた.またたんぱく質に関しては既存の手法ではほとんど圧縮できていなかったが,文脈木重み付け法とあいまい一致を考慮したLZ77法を組み合わせることで高い圧縮率を達成できた.またLZ77圧縮のためのハッシュや接尾辞配列を用いた高速なアルゴリズムも考案した. ゲノム配列データベースは巨大になっているが,これを圧縮したまま高速に検索するデータ構造を考案した.これは接尾辞配列を圧縮したものを用いており,データベース全体を走査することなく任意の文字列を検索できる.またデータベース中の任意の部分を高速に復元するアルゴリズムや,データマイニングで用いられる索引をコンパクトに格納する方法を考案した.実験により,圧縮された配列や文書と,検索のための索引のサイズの合計を元の文書のサイズより小さくできることを示した.このデータ構造を用いてゲノム配列中のあいまい一致を高速に求めるアルゴリズムなどを実現できるため,類似配列の検索などのさまざまな演算を効率よく行うことができる.

報告書

(1件)

2000 実績報告書

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] M.Inaba,N.Katoh and H.Imai: "Variance-Based κ-Clustering Algorithms by Voronoi Diagrams and Randomization"IEICE Trans.Information and Systems. E83-D,6. 1199-1206 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] T.Matsumoto,K.Sadakane and H.Imai: "Biological Sequence Compression Algorithms"Genome Informatics 2000. 43-52 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] K.Sadakane: "Compressed Text Databases with Efficient Query Algorithms based on the Compressed Suffix Array"Proceedings of ISAAC'00, Lecture Notes in Computer Science. 1969. 410-421 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] K.Sadakane and H.Imai: "Improving the Speed of LZ77 Compression by Hashing and Suffix Sorting"IEICE Trans.Fundamentals. E83-A,12. 2689-2698 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 定兼邦彦: "圧縮接尾辞配列に関する考察"情報処理学会SIGDBS. (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] K.Sadakane: "Algorithms on Strings based on the Compressed Suffix Arrays"情報処理学会SIGAL. (2000)
- 関連する報告書
  2000 実績報告書

ゲノム配列からの高次圧縮・クラスタリングによる知識発見

研究代表者

稲葉 真理 東京大学, 大学院・理学系研究科, 講師 (60282711)

報告書

研究成果

[文献書誌] M.Inaba,N.Katoh and H.Imai: "Variance-Based κ-Clustering Algorithms by Voronoi Diagrams and Randomization"IEICE Trans.Information and Systems. E83-D,6. 1199-1206 (2000)

関連する報告書

[文献書誌] T.Matsumoto,K.Sadakane and H.Imai: "Biological Sequence Compression Algorithms"Genome Informatics 2000. 43-52 (2000)

関連する報告書

[文献書誌] K.Sadakane: "Compressed Text Databases with Efficient Query Algorithms based on the Compressed Suffix Array"Proceedings of ISAAC'00, Lecture Notes in Computer Science. 1969. 410-421 (2000)

関連する報告書

[文献書誌] K.Sadakane and H.Imai: "Improving the Speed of LZ77 Compression by Hashing and Suffix Sorting"IEICE Trans.Fundamentals. E83-A,12. 2689-2698 (2000)

関連する報告書

[文献書誌] 定兼邦彦: "圧縮接尾辞配列に関する考察"情報処理学会SIGDBS. (2000)

関連する報告書

[文献書誌] K.Sadakane: "Algorithms on Strings based on the Compressed Suffix Arrays"情報処理学会SIGAL. (2000)

関連する報告書

稲葉真理東京大学, 大学院・理学系研究科, 講師 (60282711)