• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Annual Research Report

大規模テキストデータ中の部分構造と稀少な複合パタンの階層的な発見

Research Project

Project/Area Number 24300059
Research InstitutionKyushu University

Principal Investigator

池田 大輔  九州大学, システム情報科学研究科(研究院, 准教授 (00294992)

Co-Investigator(Kenkyū-buntansha) 山田 泰寛  島根大学, 総合理工学研究科(研究院), 助教 (50529609)
中藤 哲也  九州大学, 学内共同利用施設等, 助教 (20253502)
Project Period (FY) 2012-04-01 – 2015-03-31
Keywordsテキストマイニング / 希少パタン発見 / 例外パタン / 近似文字列照合
Research Abstract

本研究では、頻出なパタンを組み合わせた非頻出なパタン発見の研究を行う。非頻出なパタン候補は多いが、頻出なサブパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。
そのために、既に構築した例外文字列発見の枠組みを拡張することが基本的な方針であった。これまで、この手法によりは、検定ベースの従来手法では見つけられなかったパタンが発見できること、代表的な細菌のゲノム配列(大腸菌や枯草菌など)を用いて特定のfeature (RNAやトランスポゾン、ファージ等)によく合致することを示した。一方で、実際に利用する際に背景集合と多くのパラメータ設定が必要なことが欠点として認識された。
本年度は、(1)単一文書集合内で頻出な部分パタンを求め、連結してパタンを求める手法、(2)単一文書集合から塊で現れる部分パタンを統合し大きなパタンを「純度が高いパタン(pure pattern)」として発見する枠組みを構築し、評価を行った。前者は、単一集合で頻出なパタンを定めるため、得られたパタンの粒度が低く、featureにほとんど合致しない種があることが分かり、汎用的な枠組みとしては使えないことが分かった。一方で、後者については、(1)よりもさらにシンプルだが、例外文字列より正確にfeatureを捉えていることが分かり、さらに、これが水平伝播と関係する遺伝子によく合致することが分かった。水平伝播は、親から子へと伝播する垂直伝播に対し、よりダイナミックな進化に関連していると考えられており、非常に重要な発見である。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

計画では、(1)パタンの意味的な評価と枠組み構築、(2)パタン拡張とアルゴリズム開発、(3)サブパタンの知識ベース構築、(4)実証実験に分けて研究を進め、24年度は主に(1)(2)を行う予定であった。(1)の評価については十分な結果が得られたが、例外文字列の欠点が認識されたため、(2), (3)についてはほとんど進捗がない。しかし、その代りに新しく、純度の高いパタンという新しい有望な枠組みを構築でき、水平伝播に関係する部分配列の特定という重要な発見を行うことができた。(4)については、音楽や自然言語、位置情報を持つテキストデータに対するデータ収集や予備実験を行っている。

Strategy for Future Research Activity

25年度までの結果を受けて例外文字列発見の枠組みを拡張する方向とあわせて、純度が高いパタンも扱う。例外文字列発見に関しては、複数の階層にまたがるパタン発見を、主にゲノム配列を対象に行う。純度が高いパタンについては、より広範に使えるテキストマイニングの枠組みとして捉えなおしつつ、他のデータへの適用を行いながら、その有効性を示す。

  • Research Products

    (8 results)

All 2014 2013

All Journal Article (6 results) (of which Peer Reviewed: 6 results) Presentation (2 results)

  • [Journal Article] テキストに対するPurity尺度の適用と改良2014

    • Author(s)
      谷口雄太,池田大輔
    • Journal Title

      システム情報科学紀要

      Volume: 19 Pages: 1-6

    • Peer Reviewed
  • [Journal Article] The Purity Measure for Genomic Regions Leads to Horizontally Transferred Genes2013

    • Author(s)
      Yuta Taniguchi, Yasuhiro Yamada, Osamu Maruyama, Satru Kuhara, and Daisuke Ikeda
    • Journal Title

      Journal of Bioinformatics and Computational Biology

      Volume: 11(6):1343002 Pages: 1343002-1:17

    • DOI

      10.1142/S0219720013430026

    • Peer Reviewed
  • [Journal Article] Finding Peculiar Compositions of Two Frequent Strings with Background Texts2013

    • Author(s)
      Daisuke Ikeda and Einoshin Suzuki
    • Journal Title

      Journal of Knowledge and Information Systems

      Volume: Online First Pages: Online First

    • DOI

      10.1007/s10115-013-0688-9

    • Peer Reviewed
  • [Journal Article] Preliminary Results for Discovering Related Words from Logs of Scholarly Repositories2013

    • Author(s)
      Takehiro Shiraishi, Toshihiro Aoyama, Kazutsuna Yamaji, Takao Namiki, and Daisuke Ikeda
    • Journal Title

      Proceedings of IIAI International Conference on Advanced Information Technologies

      Volume: CDROM Pages: CDROM

    • Peer Reviewed
  • [Journal Article] Speed Improvement of the Plagiarism Detection Method2013

    • Author(s)
      Tetsuya Nakatoh, Kensuke Baba, Yasuhiro Yamada, and Daisuke Ikeda
    • Journal Title

      Proceedings of IIAI International Conference on Advanced Information Technologies

      Volume: CDROM Pages: CDROM

    • Peer Reviewed
  • [Journal Article] Mining Infrequent Patterns of Two Frequent Substrings from a Single Set of Biological Sequences2013

    • Author(s)
      Daisuke Ikeda
    • Journal Title

      Proceedings of the 2013 International Conference on Parallel and Distributed Processing Techniques and Applications

      Volume: I Pages: 136-142

    • Peer Reviewed
  • [Presentation] The Purity Measure for Genomic Regions Leads to Horizontally Transferred Genes2013

    • Author(s)
      Yuta Taniguchi, Yasuhiro Yamada, Osamu Maruyama, Satru Kuhara, and Daisuke Ikeda
    • Organizer
      International Conference on Genome Informatics
    • Place of Presentation
      シンガポール
    • Year and Date
      20131216-20131218
  • [Presentation] Mining Infrequent Patterns of Two Frequent Substrings from a Single Set of Biological Sequences2013

    • Author(s)
      Daisuke Ikeda
    • Organizer
      the 2013 International Conference on Parallel and Distributed Processing Techniques and Applications
    • Place of Presentation
      ラスベガス
    • Year and Date
      20130722-20130725

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi