研究概要 |
ゲノム研究に関わるデータは巨大なものが多い.全体的な特徴の観察や,類似する項目の発見・グループ分け(類似検索・クラスタリング),確からしいルール・特徴ある部分構造の発見(ルール/データマイニング)を行うことは,ゲノム研究において非常に重要な位置を占める.しかし,データが巨大であるため,従来の素朴な方法では計算に莫大な時間がかかる.全ての項目を総当りで比較するのではなく,効率良く類似する可能性のあるペアだけを絞り込むことができれば,極めて短時間で計算を終了することが可能である.本年度は,ゲノム情報学で基礎的な問題の中から,実験結果の解析に使われるパターンマイニング,最適分類規則発見,配列の決定やアセンブリなどで用いられる相同性の発見アルゴリズムと並び替えを行うアルゴリズムの開発に関して,最適化・アルゴリズム的な技術を適用して改善できる点を見つけ出し,そこに新たな技法を提案した.代表的な成果を以下に挙げる. -比較ゲノム分野でも多くの応用を持つ集合被覆問題に対する実用的なアルゴリズムを開発した.提案手法では,ラグランジュ緩和に基づく工夫などを取り入れることにより大規模な問題にも適用可能となった. -与えられたグラフから,擬似クリーク,インターバルグラフなどのクラスに属するグラフ全て見つけ出すアルゴリズムを開発した.効率良い列挙するアルゴリズムを設計し,実データでも高速に動く実装を作成した. -昨年度開発した文字列データの中から頻出する極大モチーフを全て発見する効率良いアルゴリズムを改良し,意味的に重要であると思われるパターンのみを抽出することに成功した. -大量の,各項目が同じ長さの短い文字列からなるデータベースの中から類似するものの組を全て見つける高速アルゴリズムの改良を行った. -DNAデータ解析において用いられる大きな規模の塩基配列集合設計を生成するアルゴリズムを開発した.
|