2005 Fiscal Year Annual Research Report

大規模ゲノム情報の高度な検索・比較に関する基礎技術開発とデータマイニングへの応用

Research Project

Project/Area Number	17018023
Research Institution	Nagoya University
Principal Investigator	柳浦睦憲名古屋大学, 情報科学研究科, 助教授 (10263120)
Co-Investigator(Kenkyū-buntansha)	宇野毅明国立情報学研究所, 情報学基礎研究系, 助教授 (00302977) 小野廣隆九州大学, 大学院・システム情報科学研究院, 助手 (00346826)
Keywords	ゲノム情報 / 高度な検索・比較 / データマイニング / 列挙アルゴリズム / 確率的解析 / 頻出集合
Research Abstract	ゲノム研究に関わるデータは巨大なものが多い.ゲノム自身が巨大な文字列データであることをはじめ,遺伝子やたんぱく質,生物種など,多くの項目を持つデータがある.また,マイクロアレイ技術の発達により,多くの実験を短時間で行えるようになったことも,実験結果のデータを巨大化させている.これら巨大なデータベースを解析し,全体的な特徴の観察や、類似する項目の発見・グループ分け(類似検索・クラスタリング),確からしいルール・特徴ある部分構造の発見(ルール/データマイニング)を行うことは,ゲノム研究において非常に重要な位置を占める.しかし,データが巨大であるため,従来の素朴な方法では計算に莫大な時間がかかる.しかし,この種の問題では,出力する解の数は全ての組合せよりはるかに小さいことが多い.類似する項目を例に挙げれば,一つの項目は他の高々数個の項目とのみ類似する場合が多い.そもそも,非常に多くの項目が類似するようなデータベースは,類似する項目を全て列挙すること自体に意味がない.全ての項目を総当りで比較するのではなく,効率良く類似する可能性のあるペアだけを絞り込むことができれば,極めて短時間で計算を終了することが可能である. 本研究班では,ゲノム情報学に現れる基礎的なデータベース解析問題や最適化問題に対して,精度が高くかつ高速なアルゴリズムを開発することとその解析を目指して研究を行った.具体的には、トランザグションデータあるいは各項目が正負のみをとるデータが与えられたとき,その中から真である項目の多くに当てはまるが偽である項目にはほとんど当てはまらないようなパターンの列挙を考え,確率的解析を通して生成されたパターンの信頼性に対する指針を与えた.また,トランザクションデータベースから頻出集合を見つける問題や,文字列データの中から頻出する極大モチーフを全て発見する問題に対して効率良いアルゴリズムを開発した.

Research Products

(4 results)

All 2006 2005

All Journal Article (4 results)

[Journal Article] A randomness based analysis on the data size needed for generating reliable rules2006
- Author(s)
  K.Haragucni, M.Yagiura
- Journal Title
  
  Proceedings of the Second International Conference on Knowledge Engineering and Decision Support (ICKEDS'06) (掲載決定済)
[Journal Article] LCM ver.3: Collaboration of Array, Bitmap and Prefix Tree for Frequent Itemset Mining2005
- Author(s)
  T.Uno, M.Kiyomi, H.Arimura
- Journal Title
  
  Open Source Data Mining Workshop on Frequent Pattern Mining Implementations
[Journal Article] A Polynomial Space and Polynomial Delay Algorithm for Enumeration of Maximal Motifs in a Sequence2005
- Author(s)
  H.Arimura, T.Uno
- Journal Title
  
  ISAAC2005, Lecture Notes in Computer Science 3827
  
  Pages: 724-737
[Journal Article] Measuring Over-generalization in the Minimal Multiple Generalizations of Biosequences2005
- Author(s)
  Y.K.Ng, H.Ono, T.Shinohara
- Journal Title
  
  Proc. 8th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence 3735
  
  Pages: 176-188

2005 Fiscal Year Annual Research Report

大規模ゲノム情報の高度な検索・比較に関する基礎技術開発とデータマイニングへの応用

Principal Investigator

柳浦 睦憲 名古屋大学, 情報科学研究科, 助教授 (10263120)

Research Products

[Journal Article] A randomness based analysis on the data size needed for generating reliable rules2006

Author(s)

Journal Title

[Journal Article] LCM ver.3: Collaboration of Array, Bitmap and Prefix Tree for Frequent Itemset Mining2005

Author(s)

Journal Title

[Journal Article] A Polynomial Space and Polynomial Delay Algorithm for Enumeration of Maximal Motifs in a Sequence2005

Author(s)

Journal Title

[Journal Article] Measuring Over-generalization in the Minimal Multiple Generalizations of Biosequences2005

Author(s)

Journal Title

柳浦睦憲名古屋大学, 情報科学研究科, 助教授 (10263120)