• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 実績報告書

大量実テキストデータに潜む少量多品種な部分構造の統計的発見と利用に関する研究

研究課題

研究課題/領域番号 21650031
研究機関九州大学

研究代表者

池田 大輔  九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)

研究分担者 中藤 哲也  九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛  島根大学, 総合理工学部, 助教 (50529609)
キーワードテキストマイニング / 近似文字列照合 / 例外的パターン / フーリエ変換 / 畳み込み演算 / 遺伝子情報処理 / 時系列データ / 予兆発見
研究概要

本研究の目的は、与えられたデータの大部分ではなく、相対的に少ない部分に対して成立する粒度の細いパターンを発見する手法を構築することである。そのために、その着想となった2つの研究を「パターン発見への写像導入」と「パターン発見への距離空間導入」という観点で捉えなおしている。
パターン発見への写像導入:昨年度までに、近似文字列照合を行う乱択アルゴリズムに対する最適な写像の生成方法の提案を行い、精度評価や高速フーリエ変換部分の高速化等を行ってきた。今年度は、文字列照合をパターン発見へと拡張するために、高速化に用いた高速フーリエ変換(FFT)に着想を得て、FFTによるパターン発見を試みた。しかし、FFTでは位置情報が失われ、パターン発見には不適当であるとの結論を得た。上述の文字列照合には、FFT全体ではなく、その中の畳み込み演算が重要であった。そこで、この演算を用いてパターン発見を行う着想を得て、予備的な実験を行い、良好な結果を得た。
パターン発見への距離空間導入:この目的は「普通」と「そうでない」パターンとの峻別が目的であった。これに対し、エントロピーや相互情報量を元にした指標を検討中であり、より詳細な解析を行う予定である。一方で、一つの指標で峻別すると定型的なパターン(あいさつなど)も同時に得られることが分かり、これらのパターンを区別したいという要求が生じた。これに対し、昨年度提案した「背景集合を用いた例外的なパターン発見」をベースに、「普通」を構成する部分構造(語など)を自動的に発見し、「部分構造の組み合わせによるパターンの発見」を検討した。さらに、この枠組みを自動生成されたスパム検出や、遺伝子配列に適用し、特徴的なパターンが発見できた。「部分構造発見」は、テキストデータ以外にも適用可能であると考え、時系列データに対して適用し、突発的な事象(嵐や地震等)の予兆の発見が可能であることを示した。一般に予兆現象は微少であり、ノイズに埋もれやすく発見が困難である。そこで、データがオフラインで与えられると仮定し、大まかに突発現象の位置を特定してから、特異値分解を元にした手法により予兆を発見できることを示した。

  • 研究成果

    (3件)

すべて 2011 2010

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (1件)

  • [雑誌論文] Unsupervised Spam Detection by Document Complexity Estimation with Maximal Overlap Method2011

    • 著者名/発表者名
      Takashi Uemura, Daisuke Ikeda, Takuya Kida and Hiroki Arimura
    • 雑誌名

      人工知能学会論文誌

      巻: 26(1) ページ: 297-306

    • 査読あり
  • [雑誌論文] Onset Time Determination of Precursory Events in Time Series Data by an Extension of Singular Spectrum Transformation2011

    • 著者名/発表者名
      Terumasa Tokunaga, Daisuke Ikeda, 他7名
    • 雑誌名

      INTERNATIONAL JOURNAL OF CIRCUITS, SYSTEMS AND SIGNAL PROCESSING

      巻: 5(1) ページ: 46-60

    • 査読あり
  • [学会発表] Detecting Precursory Events in Time Series Data by an Extension of Singular Spectrum Transformation2010

    • 著者名/発表者名
      Terumasa Tokunaga, Daisuke Ikeda, 他7名
    • 学会等名
      10th WSEAS International Conference on Applied Computer Science
    • 発表場所
      岩手県立大学
    • 年月日
      2010-10-04

URL: 

公開日: 2012-07-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi