• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

大量実テキストデータに潜む少量多品種な部分構造の統計的発見と利用に関する研究

Research Project

Project/Area Number 21650031
Research InstitutionKyushu University

Principal Investigator

池田 大輔  Kyushu University, 大学院・システム情報科学研究院, 准教授 (00294992)

Co-Investigator(Kenkyū-buntansha) 中藤 哲也  九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛  島根大学, 総合理工学部, 助教 (50529609)
Keywordsテキストマイニング / 近似文字列照合 / 例外的パターン / フーリエ変換
Research Abstract

本研究の目的は、与えられたデータの多くに対して成立する知識ではなく、相対的に少ない部分データに対して成立する粒度の細いパターンを発見する手法を構築することである。そのために、その着想となった2つの研究を「パターン発見への写像導入」と「パターン発見への距離空間導入」という観点で捉えなおす。
「パターン発見への写像導入」に対し、本年度は主に以下の3つの成果が得られた。
(1) 近似文字列照合を行う乱択アルゴリズムの最適な写像の生成方法の提案
(2) 最適な写像により生成された写像の精度に関して、既存手法との実験的な評価
(3) 近似文字列照合を行う乱択アルゴリズムについて、従来高速フーリエ返還(FFT)を用いていた部分に実数値FFTを用いることによる高速化
これらの成果は、従来から研究してきた写像による近似文字列照合の拡張であり、厳密には一致していないパターンの高速発見に役に立つ。
「パターン発見への距離空間導入」に対し、本年度は主に以下の2つの成果が得られた。
(1) 背景集合を用いた例外的なテキストパターン発見手法の提案
(2) 提案手法と既存の例外的な指標(Zスコア)との実験的な比較
これらの成果は背景集合との距離によりパターンを発見しようとする本研究の目的に合致したものであり、従来手法では得られなかったパターンを発見できることを示したものである。
一方で、前者の「パターン発見への写像導入」で得られた結果は、見つけるパターンが与えられると想定しているため、今後自動的にパターンを発見する手法へと拡張する。同様に、後者の例外的なテキストパターン発見も、見つかるパターンがスコア化されていないため、距離空間の導入が今後2年間の課題である。

  • Research Products

    (5 results)

All 2010 2009

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (2 results)

  • [Journal Article] String Matching with Mismatches by Real-valued FFT2010

    • Author(s)
      馬場謙介
    • Journal Title

      Lecture Notes in Computer Science 6019

      Pages: 273-283

    • Peer Reviewed
  • [Journal Article] FFTを用いた不一致を許す文字列照合アルゴリズムの精度評価2009

    • Author(s)
      中藤哲也, 馬場謙介, 池田大輔, 森雅生, 廣川佐千男
    • Journal Title

      情報処理学会論文誌:データベース Vol.2, No.SIG4(TOD 44)

      Pages: 1-8

    • Peer Reviewed
  • [Journal Article] Mining Peculiar Compositions of Frequent Substrings from Sparse Text Data Using Background Texts2009

    • Author(s)
      Daisuke Ikeda, Einoshin Suzuki
    • Journal Title

      Lecture Notes in Artificial Intelligence 5781

      Pages: 596-611

    • Peer Reviewed
  • [Presentation] String Matching with Mismatches by Real-valued FFT2010

    • Author(s)
      Kensuke Baba
    • Organizer
      International Conference on Computational Science and Its Applications
    • Place of Presentation
      九州産業大学, 福岡
    • Year and Date
      2010-03-23
  • [Presentation] Mining Peculiar Compositions of Frequent Substrings from Sparse Text Data Using Background Texts2009

    • Author(s)
      Daisuke Ikeda
    • Organizer
      European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases
    • Place of Presentation
      ブレッド、スロベニア
    • Year and Date
      2009-09-09

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi