• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

データ圧縮はテキストを要約できるか?

Research Project

Project/Area Number 23650074
Research InstitutionKyushu Institute of Technology

Principal Investigator

坂本 比呂志  九州工業大学, 情報工学研究院, 教授 (50315123)

Co-Investigator(Kenkyū-buntansha) 久保山 哲二  学習院大学, 付置研究所, 教授 (80302660)
Keywordsデータ圧縮 / データマイニング / 情報抽出 / パターン発見
Research Abstract

あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮を要約するための技術として発展させることで巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を発掘する.具体的には,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.平成24年度は,データ圧縮アルゴリズムによる大規模データからの知識抽出の研究を推進した.まず,データベースへの応用として,twitterなどのSNSデータへの適用可能性を探るために,学術用に公開されているデータを用いて,関連tweet間を結ぶ編で構成された巨大グラフを構築し,そのグラフ上のパターン発見を既存アルゴリズムであるクリーク発見手法によって行った.その結果,SNS特有のパターンが取得できることを示した.この結果は国際会議のポスター発表として公開した.次年度では,SNS特有の表現が含まれているテキストの内容を加味したパターン発見に拡張する.また本年度は,文字列が出現する数学上の問題に,データ圧縮が適用可能であることを示した.これは絡み目理論と呼ばれるトポロジーの分野に現れるある種の問題解析にデータ圧縮を用いることで圧倒的に計算時間を短縮できることを示したものである.この結果により,この分野に新しい解析手法をもたらしたと言える.今後は,この手法の普及に努めていく.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

平成24年度は,当初は【基礎理論の構築】のみを目指していたが,アルゴリズムの改良の進展によって,大規模データを十分に高速にかつ省メモリで実行することが可能となった.そこで,予備的に,この基本アルゴリズムを実データに適用した結果,今年度の実績として記述した内容の成果を得た.この結果によって,次年度以降の研究が前倒しで実施できる見込みである.また,基礎理論の構築については,当初の目標をクリアし,計算時間やメモリ消費量についてさらに高い水準を達成している.
これらの成果を具体的に以下にまとめる.
・圧縮マイニングの定式化: 前年度で構築したデータ構造とアルゴリズムに高速・軽量の照合技術を組み合わせることで圧縮マイニングの基本的枠組みを完成させた.現在はさらなる省メモリ化に取り組んでいる.また,このプログラムは公開予定である.
・ネットワーククラスタリングへの応用: 申請者がデータ圧縮と平行して進めているネットワークマイニングの成果を応用することでネットワークからの知識発見に発展させる.すでに予備実験によってクラスタが発見できている.今後は,時系列データに対しても実行できるようにする.

Strategy for Future Research Activity

次年度は本研究の最終年度である.最終年度は以下の観点から研究を推進する.
【アルゴリズムの実装】曖昧検索の実現: 基本的な枠組みでは,圧縮データからパターン検索には曖昧な検索ができない.しかし,似ているパターンがほぼ同じ意味を持つような場合に対応できないため,近似照合や木の類似性判定を応用して,グラフ構造からの曖昧検索のための機能拡張を行う.並列分散環境の構築: 本研究が対象とするテキストやログデータは数GB~TB クラスの規模となる.そのため,PC クラスタや分散環境下で実行することを想定している.そこで,ここまでの研究で実装されているプログラムを並列化する.
【実世界への応用と情報発信】圧縮マイニングの応用として実現可能性が高い以下の順で取り組む.これらは,木の類似性判定,多項関係の学習,高速照合の技術などで補強する予定である.以上の研究計画に基づいて,本研究の成果をセミナーやソフトウエアの公開によって社会に発信する.

Expenditure Plans for the Next FY Research Funding

予定していた国際会議への出張が取りやめになったため未使用額が発生した。
これまでに,すでに基本アルゴリズムが完成しており,また,予備実験も終了している.今後はデータの大規模化に応じたプログラムの改良と,実験結果の解析などが中心となるため,研究費は主として研究打ち合わせのための旅費と実験のための謝金として支出する予定である.

  • Research Products

    (17 results)

All 2013 2012 Other

All Journal Article (10 results) (of which Peer Reviewed: 10 results) Presentation (5 results) Remarks (2 results)

  • [Journal Article] ESP-Index: A Compressed Index Based on Edit-Sensitive Parsing2013

    • Author(s)
      S.Maruyama, M.Nakahara, N.Kishiue, H.Sakamoto
    • Journal Title

      Journal of Discrete Algorithms

      Volume: 18 Pages: 100-112

    • DOI

      10.1016/j.jda.2012.07.009

    • Peer Reviewed
  • [Journal Article] Scalable Detection of Frequent Substrings by Grammar-Based Compression2013

    • Author(s)
      M.Nakahara, S.Maruyama, T.Kuboyama, H.Sakamoto
    • Journal Title

      IEICE Trans. on Information and Systems

      Volume: E96-D(3) Pages: 457-464

    • DOI

      10.1587/transinf.E96.D457

    • Peer Reviewed
  • [Journal Article] Topic Detection about the East Japan Great Earthquake based on Emerging Modularity2013

    • Author(s)
      T. Hashimoto, T. Kuboyama and Y. Shirota
    • Journal Title

      Frontiers in Artificial Intelligence and Applications (EJC 2012)

      Volume: 251 Pages: 110- 126

    • DOI

      10.3233/978- 1- 61499- 177- 9- 110

    • Peer Reviewed
  • [Journal Article] An Online Algorithm for Lightweight Grammar-Based Compression2012

    • Author(s)
      S. Maruyama, H. Sakamoto, M. Takeda
    • Journal Title

      Algorithms

      Volume: 5(2) Pages: 214-235

    • DOI

      10.3390/a5020214

    • Peer Reviewed
  • [Journal Article] Variable-Length Codes for Space-Efficient Grammar-Based Compression2012

    • Author(s)
      Y. Takabatake, Y. Tabei, H. Sakamoto
    • Journal Title

      Lecture Notes in Computer Science

      Volume: 7608 Pages: 398-410

    • DOI

      10.1007/978-3-642-34109-0_42

    • Peer Reviewed
  • [Journal Article] Discovering Topic Transition about the East Japan Great Earthquake in Dynamic Social Media2012

    • Author(s)
      T. Hashimoto, T. Kuboyama, B. Chakraborty,Y. Shirota
    • Journal Title

      Proc. Global Humanitarian Technology Conference (GHTC), 2012 IEEE

      Volume: - Pages: 259- 264

    • DOI

      10.1109/GHTC.2012.42

    • Peer Reviewed
  • [Journal Article] Discovering emerging topic about the East Japan Great Earthquake in video sharing website2012

    • Author(s)
      T. Hashimoto, T. Kuboyama, B. Chakraborty, Y. Shirota
    • Journal Title

      Proc. TENCON2012 - 2012 IEEE Region Conference

      Volume: - Pages: 1- 6

    • DOI

      10.1109/TENCON.2012.6412324

    • Peer Reviewed
  • [Journal Article] Acquisition of glycan motifs using genetic programming and various fitness function2012

    • Author(s)
      T. Miyahara, T. Kuboyama
    • Journal Title

      Proc. SCIS- ISIS 2012

      Volume: - Pages: 1684- 1689

    • DOI

      10.1109/SCIS- ISIS.2012.6505277

    • Peer Reviewed
  • [Journal Article] Proc. SCIS- ISIS 20122012

    • Author(s)
      K. Shin, and T. Kuboyama
    • Journal Title

      Dynamic labeling and tree kernels with gap penalties

      Volume: - Pages: 1690- 1695

    • DOI

      10.1109/SCIS- ISIS.2012.6505348

    • Peer Reviewed
  • [Journal Article] A new consistency- based feature selection algorithm2012

    • Author(s)
      K. Shin, T. Kuboyama, H. Nishimura
    • Journal Title

      Proc. 18th International Conference on Soft Computing (MENDEL)

      Volume: - Pages: 570- 575

    • Peer Reviewed
  • [Presentation] 集合被覆問題の解法を用いた特徴選択2013

    • Author(s)
      久保山哲二
    • Organizer
      人工知能学会 第88回 人工知能基本問題研究会
    • Place of Presentation
      石垣市民会館
    • Year and Date
      20130124-20130125
  • [Presentation] Space-Efficient Grammar-Based Compression2012

    • Author(s)
      Y. Takabatake, Y. Tabei, H. Sakamoto
    • Organizer
      ALSIP 2012
    • Place of Presentation
      Miyazaki, Japan
    • Year and Date
      20121130-20121201
  • [Presentation] Mining twitter network:community extraction from tweets on the great east Japan earthquake2012

    • Author(s)
      M. Matsumoto, Y. Yamadaki, T. Kuboyama, H. Sakamoto
    • Organizer
      IMMM 2012
    • Place of Presentation
      Venice, Italy
    • Year and Date
      20121021-20121026
  • [Presentation] A new consistency- based feature selection algorithm2012

    • Author(s)
      久保山哲二
    • Organizer
      人工知能学会 第86回 人工知能基本問題研究会
    • Place of Presentation
      北見工業大学
    • Year and Date
      20120809-20120809
  • [Presentation] An Improvement of ESP-Index for Stream Data2012

    • Author(s)
      Y. Takabatake, H. Sakamoto
    • Organizer
      AAAC2012
    • Place of Presentation
      Fudan University, Shanghai
    • Year and Date
      20120421-20120422
  • [Remarks] 研究代表者HP

    • URL

      http://www.donald.ai.kyutech.ac.jp/hiroshi_modx/

  • [Remarks] 研究分担者HP

    • URL

      http://tk.cc.gakushuin.ac.jp/

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi