Budget Amount *help |
¥3,600,000 (Direct Cost: ¥3,600,000)
Fiscal Year 2005: ¥3,600,000 (Direct Cost: ¥3,600,000)
|
Research Abstract |
ゲノム研究に関わるデータは巨大なものが多い.ゲノム自身が巨大な文字列データであることをはじめ,遺伝子やたんぱく質,生物種など,多くの項目を持つデータがある.また,マイクロアレイ技術の発達により,多くの実験を短時間で行えるようになったことも,実験結果のデータを巨大化させている.これら巨大なデータベースを解析し,全体的な特徴の観察や、類似する項目の発見・グループ分け(類似検索・クラスタリング),確からしいルール・特徴ある部分構造の発見(ルール/データマイニング)を行うことは,ゲノム研究において非常に重要な位置を占める.しかし,データが巨大であるため,従来の素朴な方法では計算に莫大な時間がかかる.しかし,この種の問題では,出力する解の数は全ての組合せよりはるかに小さいことが多い.類似する項目を例に挙げれば,一つの項目は他の高々数個の項目とのみ類似する場合が多い.そもそも,非常に多くの項目が類似するようなデータベースは,類似する項目を全て列挙すること自体に意味がない.全ての項目を総当りで比較するのではなく,効率良く類似する可能性のあるペアだけを絞り込むことができれば,極めて短時間で計算を終了することが可能である. 本研究班では,ゲノム情報学に現れる基礎的なデータベース解析問題や最適化問題に対して,精度が高くかつ高速なアルゴリズムを開発することとその解析を目指して研究を行った.具体的には、トランザグションデータあるいは各項目が正負のみをとるデータが与えられたとき,その中から真である項目の多くに当てはまるが偽である項目にはほとんど当てはまらないようなパターンの列挙を考え,確率的解析を通して生成されたパターンの信頼性に対する指針を与えた.また,トランザクションデータベースから頻出集合を見つける問題や,文字列データの中から頻出する極大モチーフを全て発見する問題に対して効率良いアルゴリズムを開発した.
|