• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

文字の分類とパターン探索アルゴリズムの研究

研究課題

研究課題/領域番号 13780271
研究種目

若手研究(B)

配分区分補助金
研究分野 知能情報学
研究機関東京大学

研究代表者

坂内 英夫  東京大学, 医科学研究所, 助手 (20323644)

研究期間 (年度) 2001 – 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
2,100千円 (直接経費: 2,100千円)
2002年度: 600千円 (直接経費: 600千円)
2001年度: 1,500千円 (直接経費: 1,500千円)
キーワードalphabet indexing / amino acid index / pattern discovery / knowledge discovery / BONSAI / string matching / 知識発見 / iPSORT
研究概要

本年度はパターン探索の対象となるパターンのクラスを、昨年度まで主に用いていた単純な部分文字列クラスや、代入・削除・挿入を許した近似文字列パターンから拡張を試みた。具体的には任意の文字列とマッチする事が可能な「ワイルドカード文字」を含むVLDC (variable length don't care) パターンと呼ばれるパターンのクラスについて新たに考察し、VLDCパターンの問合せを高速に処理する事が可能なMASDAWGと呼ばれる文字列の索引構造を開発した。更にこの索引構造を用いて効率的にVLDCパターンの探索を行なうアルゴリズムに関して研究・開発を行なった。
このようにパターンの記述力を高める事で、パターン探索に際してより有用な知識を得られる事が期待される。これを検証するために、データとして正例と負例の文字列集合が与えられた時に、正例のみ、もしくは負例のみに、最も特異的に現われるVLDCパターンを探索するアルゴリズムを開発し、実データに対して適用した。開発したアルゴリズムを昨年度に解析したN-末端細胞内局在化シグナルを持つアミノ酸配列データに対して適用したところ、分類精度の向上と、発見されたパターンが局在化シグナルに関して既知の特徴を良く捉えている事が確認できた。他には遺伝子のDNA配列における長大なイントロンの配列の解析を行ない、長いイントロンに特徴的なVLDCパターンを発見する事に成功した。
プログラムの開発はObjective Camlと呼ばれる関数型言語で行ない、ソースコードは一部GPLで公開している(http://biocaml.org/)。

報告書

(2件)
  • 2002 実績報告書
  • 2001 実績報告書
  • 研究成果

    (10件)

すべて その他

すべて 文献書誌 (10件)

  • [文献書誌] S.Inenaga et al.: "Space-Economical Construction of Index Structures for All Suffixes of a String"Proc. Mathematical Foundations of Computer Science. LNCS 2420. 341-352 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] S.Inenaga et al.: "Discovering Best Variable-Length-Don't-Care Patterns"Proc. Discovery Science. LNCS 2534. 86-97 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] T.Akutsu et al.: "On the Complexity of Deriving Position Specific Score Matrices from Examples"Proc. Combinatorial Pattern Matching. LNCS 2373. 168-177 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] H.Bannai et al.: "A String Pattern Regression Algorithm and Its Application to Pattern Discovery in Long Introns"Genome Informatics. 13. 3-11 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] S.Ott et al.: "Intrasplicing-Analysis of Long Intron Sequences"Proc. Pacific Symposium on Biocomputing. 8. 339-350 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] H.Bannai, et al.: "Views : Fundamental Building Blocks in the Process of Knowledge Discovery"Proceedings of the 14th International FLAIRS Conference. 233-238 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 坂内英夫, 他: "ゲノムデータからの知識発見支援システム"蛋白質 核酸 酵素. 46・16. 2555-2560 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] H.Bannai, et al.: "Concepts for Accelerating the Computational Knowledge Discovery Process"Linkoping Electronic Articles in Computer and Information Science. 6. (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] H.Bannai, et al.: "More Speed and More Pattern Variations for Knowledge Discovery System BONSAI"Genome Informatics. 12. 454-455 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] H.Bannai, et al.: "Extensive feature detection of N-terminal protein sorting signals"Bioinformatics. 18・2. 298-305 (2002)

    • 関連する報告書
      2001 実績報告書

URL: 

公開日: 2001-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi