• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

文字の分類とパターン探索アルゴリズムの研究

Research Project

Project/Area Number 13780271
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionThe University of Tokyo

Principal Investigator

坂内 英夫  東京大学, 医科学研究所, 助手 (20323644)

Project Period (FY) 2001 – 2002
Project Status Completed (Fiscal Year 2002)
Budget Amount *help
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2002: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2001: ¥1,500,000 (Direct Cost: ¥1,500,000)
Keywordsalphabet indexing / amino acid index / pattern discovery / knowledge discovery / BONSAI / string matching / 知識発見 / iPSORT
Research Abstract

本年度はパターン探索の対象となるパターンのクラスを、昨年度まで主に用いていた単純な部分文字列クラスや、代入・削除・挿入を許した近似文字列パターンから拡張を試みた。具体的には任意の文字列とマッチする事が可能な「ワイルドカード文字」を含むVLDC (variable length don't care) パターンと呼ばれるパターンのクラスについて新たに考察し、VLDCパターンの問合せを高速に処理する事が可能なMASDAWGと呼ばれる文字列の索引構造を開発した。更にこの索引構造を用いて効率的にVLDCパターンの探索を行なうアルゴリズムに関して研究・開発を行なった。
このようにパターンの記述力を高める事で、パターン探索に際してより有用な知識を得られる事が期待される。これを検証するために、データとして正例と負例の文字列集合が与えられた時に、正例のみ、もしくは負例のみに、最も特異的に現われるVLDCパターンを探索するアルゴリズムを開発し、実データに対して適用した。開発したアルゴリズムを昨年度に解析したN-末端細胞内局在化シグナルを持つアミノ酸配列データに対して適用したところ、分類精度の向上と、発見されたパターンが局在化シグナルに関して既知の特徴を良く捉えている事が確認できた。他には遺伝子のDNA配列における長大なイントロンの配列の解析を行ない、長いイントロンに特徴的なVLDCパターンを発見する事に成功した。
プログラムの開発はObjective Camlと呼ばれる関数型言語で行ない、ソースコードは一部GPLで公開している(http://biocaml.org/)。

Report

(2 results)
  • 2002 Annual Research Report
  • 2001 Annual Research Report
  • Research Products

    (10 results)

All Other

All Publications (10 results)

  • [Publications] S.Inenaga et al.: "Space-Economical Construction of Index Structures for All Suffixes of a String"Proc. Mathematical Foundations of Computer Science. LNCS 2420. 341-352 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] S.Inenaga et al.: "Discovering Best Variable-Length-Don't-Care Patterns"Proc. Discovery Science. LNCS 2534. 86-97 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] T.Akutsu et al.: "On the Complexity of Deriving Position Specific Score Matrices from Examples"Proc. Combinatorial Pattern Matching. LNCS 2373. 168-177 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] H.Bannai et al.: "A String Pattern Regression Algorithm and Its Application to Pattern Discovery in Long Introns"Genome Informatics. 13. 3-11 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] S.Ott et al.: "Intrasplicing-Analysis of Long Intron Sequences"Proc. Pacific Symposium on Biocomputing. 8. 339-350 (2003)

    • Related Report
      2002 Annual Research Report
  • [Publications] H.Bannai, et al.: "Views : Fundamental Building Blocks in the Process of Knowledge Discovery"Proceedings of the 14th International FLAIRS Conference. 233-238 (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] 坂内英夫, 他: "ゲノムデータからの知識発見支援システム"蛋白質 核酸 酵素. 46・16. 2555-2560 (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] H.Bannai, et al.: "Concepts for Accelerating the Computational Knowledge Discovery Process"Linkoping Electronic Articles in Computer and Information Science. 6. (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] H.Bannai, et al.: "More Speed and More Pattern Variations for Knowledge Discovery System BONSAI"Genome Informatics. 12. 454-455 (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] H.Bannai, et al.: "Extensive feature detection of N-terminal protein sorting signals"Bioinformatics. 18・2. 298-305 (2002)

    • Related Report
      2001 Annual Research Report

URL: 

Published: 2001-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi