• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Annual Research Report

圧縮マイニング:超大規模テキストに埋もれている知識の顕在化

Research Project

Project/Area Number 23680016
Research InstitutionKyushu Institute of Technology

Principal Investigator

坂本 比呂志  九州工業大学, 情報工学研究院, 教授 (50315123)

Project Period (FY) 2011-04-01 – 2015-03-31
Keywordsデータ圧縮 / 簡潔データ構造 / ストリームデータ / 文法圧縮
Research Abstract

あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮によって巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を顕在化する圧縮マイニングを実現することが目標である.前年度に,当初は予見できなかった新しい知見を得たため,24年度はその部分の理論の拡張を試みた.その結果,圧縮率と省メモリ化の両方を高いレベルで達成することに成功した.さらにこのアルゴリズムをストリーム処理可能なものに高機能化することにも成功した.これらのプロトタイプを作成し,大規模データで実験した結果を主要論文誌やその分野のトップカンファレンスに投稿し,採択された.具体的には以下のような成果を得た.
【基礎理論の構築】圧縮マイニングの定式化: 前年度で構築したデータ構造とアルゴリズムに高速・軽量の照合技術を組み合わせることで圧縮マイニングの基本的枠組みを完成させた.ネットワーククラスタリングへの応用: 申請者がデータ圧縮と平行して進めているネットワークマイニングの成果を応用して大規模グラフデータからのパターン獲得に応用できることを予備的な実験によって示した.
【アルゴリズムの実装】曖昧検索の実現: 基本的な枠組みでは,圧縮データからパター
ン検索には曖昧な検索ができない.現在は,このアルゴリズムは,部分的な一致を検出することで曖昧な検索が可能となっている.
この成果によって,これまでは困難であった,GB 超~TB クラスの巨大テキスト同士の直接比較が可能になる.そして,これまでは歯が立たなかった超大規模テキストから知識を掘り起こし,まとまりごとに再構成することで知識を顕在化するための研究を本格化する.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

前年度に得られた,当初は予見できなかった新しい枠組みを取り入れての理論を完成させた.また,そのアルゴリズムのプロトタイプを作成し,GBを超える規模のデータに対しても十分に高速に動作することを確認した.したがって,これまでの成果は計画を上回っていると言える.また,当初は最終年度にプログラムの公開を予定していたが,今年度から順次プロトタイプも公開しており,実世界への応用と情報発信は前倒しで実施できていると言える.以上のことから本計画は当初の計画以上に進展していると言える.

Strategy for Future Research Activity

今後は,ビッグデータ時代の到来を見据えて,さらなる大規模化と低コスト化を目指す.そのためには,リアルデータを保持しているドメインエキスパートや他分野の研究者との交流を促進し,本研究が核となる研究テーマを開拓する.また,最終年度の目標である【実世界への応用と情報発信】についても次年度より研究を開始する.この部分については,すでに共同研究者を開始しており,徐々に成果が現れつつある.

  • Research Products

    (8 results)

All 2013 2012 Other

All Journal Article (4 results) (of which Peer Reviewed: 4 results) Presentation (3 results) Remarks (1 results)

  • [Journal Article] ESP-Index: A Compressed Index Based on Edit-Sensitive Parsing2013

    • Author(s)
      S.Maruyama
    • Journal Title

      Journal of Discrete Algorithms

      Volume: 18 Pages: 100-112

    • DOI

      10.1016/j.jda.2012.07.009

    • Peer Reviewed
  • [Journal Article] Scalable Detection of Frequent Substrings by Grammar-Based Compression2013

    • Author(s)
      M.Nakahara
    • Journal Title

      IEICE Trans. on Information and Systems

      Volume: E96-D(3) Pages: 457-464

    • DOI

      10.1587/transinf.E96.D457

    • Peer Reviewed
  • [Journal Article] An Online Algorithm for Lightweight Grammar-Based Compression2012

    • Author(s)
      S. Maruyama
    • Journal Title

      Algorithms

      Volume: 5(2) Pages: 214-235

    • DOI

      10.3390/a5020214

    • Peer Reviewed
  • [Journal Article] Variable-Length Codes for Space-Efficient Grammar-Based Compression2012

    • Author(s)
      Y. Takabatake
    • Journal Title

      Lecture Notes in Computer Science

      Volume: 7608 Pages: 398-410

    • DOI

      10.1007/978-3-642-34109-0_42

    • Peer Reviewed
  • [Presentation] Space-Efficient Grammar-Based Compression2012

    • Author(s)
      Y. Takabatake
    • Organizer
      ALSIP 2012
    • Place of Presentation
      Miyazaki, Japan
    • Year and Date
      20121130-20121201
  • [Presentation] Mining twitter network: community extraction from tweets on the great east Japan earthquake2012

    • Author(s)
      M. Matsumoto
    • Organizer
      IMMM 2012
    • Place of Presentation
      Venice, Italy
    • Year and Date
      20121021-20121026
  • [Presentation] An Improvement of ESP-Index for Stream Data2012

    • Author(s)
      Y. Takabatake
    • Organizer
      AAAC2012
    • Place of Presentation
      Fudan University, Shanghai
    • Year and Date
      20120421-20120422
  • [Remarks] 研究室HP

    • URL

      http://www.donald.ai.kyutech.ac.jp/hiroshi_modx/

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi