• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

大量実テキストデータに潜む少量多品種な部分構造の統計的発見と利用に関する研究

研究課題

研究課題/領域番号 21650031
研究機関九州大学

研究代表者

池田 大輔  九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)

研究分担者 中藤 哲也  九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛  島根大学, 総合理工学部, 助教 (50529609)
キーワードテキストマイニング / 近似文字列照合 / 例外的パターン / フーリエ変換
研究概要

本研究の目的は、与えられたデータの多くに対して成立する知識ではなく、相対的に少ない部分データに対して成立する粒度の細いパターンを発見する手法を構築することである。そのために、その着想となった2つの研究を「パターン発見への写像導入」と「パターン発見への距離空間導入」という観点で捉えなおす。
「パターン発見への写像導入」に対し、本年度は主に以下の3つの成果が得られた。
(1) 近似文字列照合を行う乱択アルゴリズムの最適な写像の生成方法の提案
(2) 最適な写像により生成された写像の精度に関して、既存手法との実験的な評価
(3) 近似文字列照合を行う乱択アルゴリズムについて、従来高速フーリエ返還(FFT)を用いていた部分に実数値FFTを用いることによる高速化
これらの成果は、従来から研究してきた写像による近似文字列照合の拡張であり、厳密には一致していないパターンの高速発見に役に立つ。
「パターン発見への距離空間導入」に対し、本年度は主に以下の2つの成果が得られた。
(1) 背景集合を用いた例外的なテキストパターン発見手法の提案
(2) 提案手法と既存の例外的な指標(Zスコア)との実験的な比較
これらの成果は背景集合との距離によりパターンを発見しようとする本研究の目的に合致したものであり、従来手法では得られなかったパターンを発見できることを示したものである。
一方で、前者の「パターン発見への写像導入」で得られた結果は、見つけるパターンが与えられると想定しているため、今後自動的にパターンを発見する手法へと拡張する。同様に、後者の例外的なテキストパターン発見も、見つかるパターンがスコア化されていないため、距離空間の導入が今後2年間の課題である。

  • 研究成果

    (5件)

すべて 2010 2009

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (2件)

  • [雑誌論文] String Matching with Mismatches by Real-valued FFT2010

    • 著者名/発表者名
      馬場謙介
    • 雑誌名

      Lecture Notes in Computer Science 6019

      ページ: 273-283

    • 査読あり
  • [雑誌論文] FFTを用いた不一致を許す文字列照合アルゴリズムの精度評価2009

    • 著者名/発表者名
      中藤哲也, 馬場謙介, 池田大輔, 森雅生, 廣川佐千男
    • 雑誌名

      情報処理学会論文誌:データベース Vol.2, No.SIG4(TOD 44)

      ページ: 1-8

    • 査読あり
  • [雑誌論文] Mining Peculiar Compositions of Frequent Substrings from Sparse Text Data Using Background Texts2009

    • 著者名/発表者名
      Daisuke Ikeda, Einoshin Suzuki
    • 雑誌名

      Lecture Notes in Artificial Intelligence 5781

      ページ: 596-611

    • 査読あり
  • [学会発表] String Matching with Mismatches by Real-valued FFT2010

    • 著者名/発表者名
      Kensuke Baba
    • 学会等名
      International Conference on Computational Science and Its Applications
    • 発表場所
      九州産業大学, 福岡
    • 年月日
      2010-03-23
  • [学会発表] Mining Peculiar Compositions of Frequent Substrings from Sparse Text Data Using Background Texts2009

    • 著者名/発表者名
      Daisuke Ikeda
    • 学会等名
      European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases
    • 発表場所
      ブレッド、スロベニア
    • 年月日
      2009-09-09

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi