• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

ゲノム配列の高次圧縮・索引構築と高次幾何構造解析による知識発見

研究課題

研究課題/領域番号 14015204
研究種目

特定領域研究

配分区分補助金
審査区分 生物系
研究機関東北大学

研究代表者

定兼 邦彦  東北大学, 大学院・情報科学研究科, 助手 (20323090)

研究分担者 稲葉 真理  東京大学, 大学院・情報理工学系研究科, 助教授 (60282711)
今井 浩  東京大学, 大学院・情報理工学系研究科, 教授 (80183010)
徳山 豪  東北大学, 大学院・情報科学研究科, 教授 (40312631)
研究期間 (年度) 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
3,600千円 (直接経費: 3,600千円)
2002年度: 3,600千円 (直接経費: 3,600千円)
キーワードゲノムデータベース / ゲノム配列 / 索引構造 / 接尾辞配列 / データ圧縮 / 相関ルール
研究概要

ゲノムデータベースからの知識発見のためのアルゴリズムとデータ構造に関する研究を行った.まず,ゲノム配列データベースからの高速パタン検索のアルゴリズムとデータ構造を開発した.索引としては既存の圧縮接尾辞配列を用いたが,新しいアルゴリズムにより従来の30倍の速度での検索が可能になった.
次に,2つの長いゲノム配列のアラインメントを計算するための手法である,MUM(Maximal Unique Match)を列挙する省スペースなアルゴリズムを開発した.配列の長さをnとすると,既存手法ではO(n log n)ビットのスペースが必要であったが,本研究ではこれをO(n)ビットに圧縮した.これにより,ヒトの全DNA配列2つのMUMの計算がメモリ4GBのPC1台を用いて約6時間で計算できた.また,ヒトとマウスの間の共通部分については約24時間で計算できた.
データベースからの知識発見のために,データベース中の複数の属性間の最適相関ルールを求める高速アルゴリズムを開発した.最適とは,支持率を固定した場合の最大確信度ルールまたは確信度を固定したときの最大支持率ルールを表す.従来手法では2値属性のみしか効率良く扱えなかったが,本研究の手法では数値属性に対して効率良く動作する.また,数値属性間の最適相関ルールを拡張し,様々な確信度に対する最適領域をピラミッド型の図形で表現する方法を提案し,その効率の良い計算法を提案した.これを最適ピラミッドによる相関ルール表現と呼ぶ.これを用いることでデータベースから抽出した知識を簡潔に表現することができ,過学習の回避もできる.また,ピラミッドを用いてデータの可視化を行うこともできる.

報告書

(1件)
  • 2002 実績報告書
  • 研究成果

    (6件)

すべて その他

すべて 文献書誌 (6件)

  • [文献書誌] K.Sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 144-152 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] K.Sadakane: "Experimental Results on the Compressed Suffix Array for Human DNA"DIMACS Working Group Meeting on Data Compression in Networks and Applications. (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] T.W.Lam, K.SADAKANE, W.K.Sung, S.M.Yiu: "A Space and Time Efficient Algorithm for Constructing Compressed Suffix Arrays"Proceedings of International Computing and Combinatorics Conference. LNCS 2387. 401-410 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] W.K.Hon, K.Sadakane: "Space-economical Algorithms for Finding Maximal Unique Matches"Proceedings of Combinatorial Pattern Matching. LNCS 2373. 144-152 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] J.Chun, K.Sadakane, T.Tokuyama: "Improved algorithms for constructing a pyramid from a terrain"Proceedings of Japan Conference on Discrete and Computational Geometry. 21-22 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Y.Morimoto, T.Fukuda, T.Tokuyama: "Algorithms for Finding Attribute Value Group for Binary Segmentation of Categorical Databases"IEEE Transactions on Knowledge and Data Engineering. Vol.14 No.6. 1269-1279 (2002)

    • 関連する報告書
      2002 実績報告書

URL: 

公開日: 2002-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi