• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2002 年度 実績報告書

文字の分類とパターン探索アルゴリズムの研究

研究課題

研究課題/領域番号 13780271
研究機関東京大学

研究代表者

坂内 英夫  東京大学, 医科学研究所, 助手 (20323644)

キーワードalphabet indexing / amino acid index / pattern discovery / knowledge discovery / BONSAI
研究概要

本年度はパターン探索の対象となるパターンのクラスを、昨年度まで主に用いていた単純な部分文字列クラスや、代入・削除・挿入を許した近似文字列パターンから拡張を試みた。具体的には任意の文字列とマッチする事が可能な「ワイルドカード文字」を含むVLDC (variable length don't care) パターンと呼ばれるパターンのクラスについて新たに考察し、VLDCパターンの問合せを高速に処理する事が可能なMASDAWGと呼ばれる文字列の索引構造を開発した。更にこの索引構造を用いて効率的にVLDCパターンの探索を行なうアルゴリズムに関して研究・開発を行なった。
このようにパターンの記述力を高める事で、パターン探索に際してより有用な知識を得られる事が期待される。これを検証するために、データとして正例と負例の文字列集合が与えられた時に、正例のみ、もしくは負例のみに、最も特異的に現われるVLDCパターンを探索するアルゴリズムを開発し、実データに対して適用した。開発したアルゴリズムを昨年度に解析したN-末端細胞内局在化シグナルを持つアミノ酸配列データに対して適用したところ、分類精度の向上と、発見されたパターンが局在化シグナルに関して既知の特徴を良く捉えている事が確認できた。他には遺伝子のDNA配列における長大なイントロンの配列の解析を行ない、長いイントロンに特徴的なVLDCパターンを発見する事に成功した。
プログラムの開発はObjective Camlと呼ばれる関数型言語で行ない、ソースコードは一部GPLで公開している(http://biocaml.org/)。

  • 研究成果

    (5件)

すべて その他

すべて 文献書誌 (5件)

  • [文献書誌] S.Inenaga et al.: "Space-Economical Construction of Index Structures for All Suffixes of a String"Proc. Mathematical Foundations of Computer Science. LNCS 2420. 341-352 (2002)

  • [文献書誌] S.Inenaga et al.: "Discovering Best Variable-Length-Don't-Care Patterns"Proc. Discovery Science. LNCS 2534. 86-97 (2002)

  • [文献書誌] T.Akutsu et al.: "On the Complexity of Deriving Position Specific Score Matrices from Examples"Proc. Combinatorial Pattern Matching. LNCS 2373. 168-177 (2002)

  • [文献書誌] H.Bannai et al.: "A String Pattern Regression Algorithm and Its Application to Pattern Discovery in Long Introns"Genome Informatics. 13. 3-11 (2002)

  • [文献書誌] S.Ott et al.: "Intrasplicing-Analysis of Long Intron Sequences"Proc. Pacific Symposium on Biocomputing. 8. 339-350 (2003)

URL: 

公開日: 2004-04-07   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi