• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

ゲノム配列の高次圧縮・索引構築と高次幾何構造解析による知識発見

Research Project

Project/Area Number 14015204
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Biological Sciences
Research InstitutionTohoku University

Principal Investigator

定兼 邦彦  東北大学, 大学院・情報科学研究科, 助手 (20323090)

Co-Investigator(Kenkyū-buntansha) 稲葉 真理  東京大学, 大学院・情報理工学系研究科, 助教授 (60282711)
今井 浩  東京大学, 大学院・情報理工学系研究科, 教授 (80183010)
徳山 豪  東北大学, 大学院・情報科学研究科, 教授 (40312631)
Project Period (FY) 2002
Project Status Completed (Fiscal Year 2002)
Budget Amount *help
¥3,600,000 (Direct Cost: ¥3,600,000)
Fiscal Year 2002: ¥3,600,000 (Direct Cost: ¥3,600,000)
Keywordsゲノムデータベース / ゲノム配列 / 索引構造 / 接尾辞配列 / データ圧縮 / 相関ルール
Research Abstract

ゲノムデータベースからの知識発見のためのアルゴリズムとデータ構造に関する研究を行った.まず,ゲノム配列データベースからの高速パタン検索のアルゴリズムとデータ構造を開発した.索引としては既存の圧縮接尾辞配列を用いたが,新しいアルゴリズムにより従来の30倍の速度での検索が可能になった.
次に,2つの長いゲノム配列のアラインメントを計算するための手法である,MUM(Maximal Unique Match)を列挙する省スペースなアルゴリズムを開発した.配列の長さをnとすると,既存手法ではO(n log n)ビットのスペースが必要であったが,本研究ではこれをO(n)ビットに圧縮した.これにより,ヒトの全DNA配列2つのMUMの計算がメモリ4GBのPC1台を用いて約6時間で計算できた.また,ヒトとマウスの間の共通部分については約24時間で計算できた.
データベースからの知識発見のために,データベース中の複数の属性間の最適相関ルールを求める高速アルゴリズムを開発した.最適とは,支持率を固定した場合の最大確信度ルールまたは確信度を固定したときの最大支持率ルールを表す.従来手法では2値属性のみしか効率良く扱えなかったが,本研究の手法では数値属性に対して効率良く動作する.また,数値属性間の最適相関ルールを拡張し,様々な確信度に対する最適領域をピラミッド型の図形で表現する方法を提案し,その効率の良い計算法を提案した.これを最適ピラミッドによる相関ルール表現と呼ぶ.これを用いることでデータベースから抽出した知識を簡潔に表現することができ,過学習の回避もできる.また,ピラミッドを用いてデータの可視化を行うこともできる.

Report

(1 results)
  • 2002 Annual Research Report
  • Research Products

    (6 results)

All Other

All Publications (6 results)

  • [Publications] K.Sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 144-152 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] K.Sadakane: "Experimental Results on the Compressed Suffix Array for Human DNA"DIMACS Working Group Meeting on Data Compression in Networks and Applications. (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] T.W.Lam, K.SADAKANE, W.K.Sung, S.M.Yiu: "A Space and Time Efficient Algorithm for Constructing Compressed Suffix Arrays"Proceedings of International Computing and Combinatorics Conference. LNCS 2387. 401-410 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] W.K.Hon, K.Sadakane: "Space-economical Algorithms for Finding Maximal Unique Matches"Proceedings of Combinatorial Pattern Matching. LNCS 2373. 144-152 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] J.Chun, K.Sadakane, T.Tokuyama: "Improved algorithms for constructing a pyramid from a terrain"Proceedings of Japan Conference on Discrete and Computational Geometry. 21-22 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] Y.Morimoto, T.Fukuda, T.Tokuyama: "Algorithms for Finding Attribute Value Group for Binary Segmentation of Categorical Databases"IEEE Transactions on Knowledge and Data Engineering. Vol.14 No.6. 1269-1279 (2002)

    • Related Report
      2002 Annual Research Report

URL: 

Published: 2002-04-01   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi