• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

大量実テキストデータに潜む少量多品種な部分構造の統計的発見と利用に関する研究

Research Project

Project/Area Number 21650031
Research InstitutionKyushu University

Principal Investigator

池田 大輔  九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)

Co-Investigator(Kenkyū-buntansha) 中藤 哲也  九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛  島根大学, 総合理工学部, 助教 (50529609)
Keywordsテキストマイニング / 近似文字列照合 / 例外的パターン / フーリエ変換 / 畳み込み演算 / 遺伝子情報処理 / 時系列データ / 予兆発見
Research Abstract

本研究の目的は、与えられたデータの大部分ではなく、相対的に少ない部分に対して成立する粒度の細いパターンを発見する手法を構築することである。そのために、その着想となった従来の研究を「パターン発見への写像導入」と「パターン発見への距離空間導入」という観点で捉えなおした。
パターン発見への写像導入:これまでに、近似文字列照合を行う乱択アルゴリズムに対する最適な写像の生成方法の提案を行い、精度評価や高速フーリエ変換部分の高速化等を行ってきた。今年度は、昨年度に予備実験を行った畳み込み演算によるパターン発見を用いて、剽窃検出の実験を行い、低頻度でも剽窃が適切に発見できることを示した。また、この際、数文字を一つにまとめて写像する処理が本質的であることを示した。
パターン発見への距離空間導入:この目的は「普通」と「そうでない」パターンとの峻別が目的であり、距離を導入することを想定していた。この目的に対し、昨年度までの成果により、距離ではなく、「普通」を構成する部分構造(語など)の自動的に発見し、「部分構造の組み合わせによるパターンの発見」が有効かもしれないとの知見を得ていた。今年度は、これをさらに進めゲノム配列やWeb上の文書でその有効性を確認した。一般に、個々のデータ間の近さを距離として厳密に定めることは困難だが、提案手法はよりシンプルで汎用性が高いと期待できる。実際、部分構造の発見をグラフデータのクラスタリングに適用し、従来手法よりノイズに強いことを示した。?
写像によるパターン発見でも複数文字をまとめる、つまり、部分構造を求めることの重要性が確認された。部分構造の発見によるパターン発見は、当初の計画(距離空間によるパターンの識別)とは異なるが、萌芽研究として重要な知見を得られた。

  • Research Products

    (6 results)

All 2011

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (3 results)

  • [Journal Article] A Preprocessing for Approximate String Matching2011

    • Author(s)
      Kensuke Baba, Tetsuya Nakatoh, Yasuhiro Yamada, and Daisuke Ikeda.
    • Journal Title

      Communications in Computer and Information Science

      Volume: 252 Pages: 610-615

    • Peer Reviewed
  • [Journal Article] Partial Plagiarism Detection using String Matching with Mismatches2011

    • Author(s)
      Tetsuya Nakatoh, Kensuke Baba, Yasuhiro Yamada, Daisuke Ikeda.
    • Journal Title

      Communications in Computer and Information Science

      Volume: 254-6 Pages: 265-272

    • Peer Reviewed
  • [Journal Article] 変化点検出を応用した時系列データからの突発現象の前兆検出アルゴリズム2011

    • Author(s)
      徳永旭将, 池田大輔ら
    • Journal Title

      情報処理学会論文誌数理モデル化と応用

      Volume: 4(No.3) Pages: 14-34

    • Peer Reviewed
  • [Presentation] A Preprocessing for Approximate String Matching2011

    • Author(s)
      Kensuke Baba, et al
    • Organizer
      International Conference on Informatics Engineering and Information Science
    • Place of Presentation
      University Technology Malaysia(招待講演)
    • Year and Date
      2011-11-14
  • [Presentation] Partial Plagiarism Detection using String Matching with Mismatches2011

    • Author(s)
      Tetsuya Nakatoh, et al
    • Organizer
      International Conference on Informatics Engineering and Information Science
    • Place of Presentation
      University Technology Malaysia(招待講演)
    • Year and Date
      2011-11-14
  • [Presentation] Graph Clustering Based on Optimization of A Macroscopic Structure of Clusters2011

    • Author(s)
      Yuta Taniguchi, Daisuke Ikeda
    • Organizer
      International Conference on Discovery Science
    • Place of Presentation
      Aalto University, Finland(招待講演)
    • Year and Date
      2011-10-05

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi