• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模ゲノム情報の高度な検索・比較に関する基礎技術開発とデータマイニングへの応用

研究課題

研究課題/領域番号 17018023
研究種目

特定領域研究

配分区分補助金
審査区分 生物系
研究機関名古屋大学

研究代表者

柳浦 睦憲  名古屋大学, 情報科学研究科, 助教授 (10263120)

研究分担者 宇野 毅明  国立情報学研究所, 情報学基礎研究系, 助教授 (00302977)
小野 廣隆  九州大学, 大学院・システム情報科学研究院, 助手 (00346826)
研究期間 (年度) 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
3,600千円 (直接経費: 3,600千円)
2005年度: 3,600千円 (直接経費: 3,600千円)
キーワードゲノム情報 / 高度な検索・比較 / データマイニング / 列挙アルゴリズム / 確率的解析 / 頻出集合
研究概要

ゲノム研究に関わるデータは巨大なものが多い.ゲノム自身が巨大な文字列データであることをはじめ,遺伝子やたんぱく質,生物種など,多くの項目を持つデータがある.また,マイクロアレイ技術の発達により,多くの実験を短時間で行えるようになったことも,実験結果のデータを巨大化させている.これら巨大なデータベースを解析し,全体的な特徴の観察や、類似する項目の発見・グループ分け(類似検索・クラスタリング),確からしいルール・特徴ある部分構造の発見(ルール/データマイニング)を行うことは,ゲノム研究において非常に重要な位置を占める.しかし,データが巨大であるため,従来の素朴な方法では計算に莫大な時間がかかる.しかし,この種の問題では,出力する解の数は全ての組合せよりはるかに小さいことが多い.類似する項目を例に挙げれば,一つの項目は他の高々数個の項目とのみ類似する場合が多い.そもそも,非常に多くの項目が類似するようなデータベースは,類似する項目を全て列挙すること自体に意味がない.全ての項目を総当りで比較するのではなく,効率良く類似する可能性のあるペアだけを絞り込むことができれば,極めて短時間で計算を終了することが可能である.
本研究班では,ゲノム情報学に現れる基礎的なデータベース解析問題や最適化問題に対して,精度が高くかつ高速なアルゴリズムを開発することとその解析を目指して研究を行った.具体的には、トランザグションデータあるいは各項目が正負のみをとるデータが与えられたとき,その中から真である項目の多くに当てはまるが偽である項目にはほとんど当てはまらないようなパターンの列挙を考え,確率的解析を通して生成されたパターンの信頼性に対する指針を与えた.また,トランザクションデータベースから頻出集合を見つける問題や,文字列データの中から頻出する極大モチーフを全て発見する問題に対して効率良いアルゴリズムを開発した.

報告書

(1件)
  • 2005 実績報告書
  • 研究成果

    (4件)

すべて 2006 2005

すべて 雑誌論文 (4件)

  • [雑誌論文] A randomness based analysis on the data size needed for generating reliable rules2006

    • 著者名/発表者名
      K.Haragucni, M.Yagiura
    • 雑誌名

      Proceedings of the Second International Conference on Knowledge Engineering and Decision Support (ICKEDS'06) (掲載決定済)

    • NAID

      110004851555

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] LCM ver.3: Collaboration of Array, Bitmap and Prefix Tree for Frequent Itemset Mining2005

    • 著者名/発表者名
      T.Uno, M.Kiyomi, H.Arimura
    • 雑誌名

      Open Source Data Mining Workshop on Frequent Pattern Mining Implementations

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] A Polynomial Space and Polynomial Delay Algorithm for Enumeration of Maximal Motifs in a Sequence2005

    • 著者名/発表者名
      H.Arimura, T.Uno
    • 雑誌名

      ISAAC2005, Lecture Notes in Computer Science 3827

      ページ: 724-737

    • NAID

      110003225066

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Measuring Over-generalization in the Minimal Multiple Generalizations of Biosequences2005

    • 著者名/発表者名
      Y.K.Ng, H.Ono, T.Shinohara
    • 雑誌名

      Proc. 8th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence 3735

      ページ: 176-188

    • 関連する報告書
      2005 実績報告書

URL: 

公開日: 2005-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi