• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

ゲノム配列からの高次圧縮・クラスタリングによる知識発見

研究課題

研究課題/領域番号 13208002
研究種目

特定領域研究(C)

配分区分補助金
審査区分 生物系
研究機関東京大学

研究代表者

稲葉 真理  東京大学, 大学院・理学系研究科, 講師 (60282711)

研究分担者 定兼 邦彦  東北大学, 大学院・情報科学研究科, 助手 (20323090)
今井 浩  東京大学, 大学院・情報理工学系研究科, 教授 (80183010)
研究期間 (年度) 2000 – 2001
研究課題ステータス 完了 (2001年度)
配分額 *注記
4,000千円 (直接経費: 4,000千円)
2001年度: 4,000千円 (直接経費: 4,000千円)
キーワードDNA配列 / ゲノム検索 / 接尾辞配列 / 圧縮接尾辞配列
研究概要

ゲノム計回では様々な生物のDNA配列の解読が進んでおり,さらにDNA配列中のタンパク質のコーディング領域の推定や,タンパク質の機能の予測などが行われている.また,異なる生物のDNAやアミノ酸配列の間の類似度を計算し,それによつて構造や機能の予測や,進化系統樹の解析が行われている。本研究ではこれらの問題に対する文字列の高次圧縮の研究を目指した.具体的には、文字列を圧縮したまま高速に検索するデータ構造の研究を行った.特に,様々な問題を解く際に用いることができる汎用的な索引の研究を行った.ヒトゲノム27億塩基に対して、任意のパタンを検索可能を索引である接尾辞配列のサイズは約11Gバイトであるが、それを約2Gバイトに圧縮した。索引を圧縮することでコンピュータのメモリ内に格納することが可能になり,高速検索が行える.任意のパタンの高速検索が可能な接尾辞配列の圧縮に関する研究はごく最近に始まったものであり,まだ理論的な結果のみが示されているのみである.実際に索引を構成している例もあるが,データ量はあまり大きくない.本研究では大量のデータに対して実際に索引を作成している.圧縮された索引を用いて配列を検索する場合・圧縮されていない索引を用いた場合と同じアルゴリズムを使えるが,アルゴリズムによっては速度が低下する場合がある.また,索引生成時に必要なメモリ量が大きいため,索引の生成にはスーパーコンピュータを用いてこの問題点を解決した。

報告書

(1件)
  • 2001 実績報告書
  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] Sadakane, K., Shibuya, T.: "Indexing Huge Genome Sequences for Solving Various Problems"Genome Informatics 2001', Universal Academy Press. 175-183 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Sadakane, K.: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 225-232 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Sadakane, K., Imai, H.: "Fast Algorithms for k-Word Proximity Search"IEICE Trans. Fundamentals.. E-84A, 9. 2311-2318 (2002)

    • 関連する報告書
      2001 実績報告書

URL: 

公開日: 2001-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi