• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Annual Research Report

データ圧縮はテキストを要約できるか?

Research Project

Project/Area Number 23650074
Research InstitutionKyushu Institute of Technology

Principal Investigator

坂本 比呂志  九州工業大学, 大学院情報工学研究院, 教授 (50315123)

Co-Investigator(Kenkyū-buntansha) 久保山 哲二  学習院大学, 計算機センター, 教授 (80302660)
Keywordsデータ圧縮 / データマイニング / 簡潔データ構造 / グラフ構造
Research Abstract

あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.本課題では曖昧検索と部分構造抽出を可能とする理論拡張を行った.その結果として,圧縮データによる要約技術を実世界データへ適用することが可能となった.具体的には以下の成果を上げた.
【基礎理論の構築】最終年度以前では,木構造の分解による索引構造の構築および簡潔データ構造のデータ圧縮への応用について理論の拡張を行った.この理論に基づき,最終年度では圧縮マイニングの定式化とネットワーク分析への応用について集中的に研究を行った.その結果,大規模グラフ構造からの知識を抽出する新しいアルゴリズムを構築した.
【アルゴリズムの実装】これまでのアルゴリズムでは圧縮データから曖昧検索ができない.そこで,前年度までに完成した理論を実装し,正規表現を部分的にカバーする曖昧検索を圧縮データ上で実現した.また,このアルゴリズムを並列化し,より大規模データに適用可能とした.
【実世界への応用と情報発信】これまでに開発した類似性判定や高速照合の技術を用いて,最終年度では,文字列の類似度を高速に判定するオンラインアルゴリズムを開発し,ツイッターデータなどに適用し,その規模耐性や有効性を検証した.その結果,類似しているが全く同じではない記載を高速に抽出できることを確認した.

  • Research Products

    (5 results)

All 2014 2013

All Journal Article (3 results) Presentation (2 results)

  • [Journal Article] A Reconfigurable Stream Compression Hardware based on Static Symbol-Lookup Table2014

    • Author(s)
      S. Yamagiwa, H. Sakamoto
    • Journal Title

      The First Workshop on Benchmarks, Performance Optimization, and Emerging hardware of Big Data Systems and Applications

      Volume: 1 Pages: 86-93

    • DOI

      10.1109/BigData.2013.6691702

  • [Journal Article] Fully-Online Grammar Compression2013

    • Author(s)
      S. Maruyama, Y. Tabei, H. Sakamoto, K. Sadakane
    • Journal Title

      20th International Symposium on String Processing and Information Retrieval

      Volume: 8214 Pages: 218-229

    • DOI

      10.1007/978-3-319-02432-5_25

  • [Journal Article] A Succinct Grammar Compression2013

    • Author(s)
      Yasuo Tabei, Yoshimasa Takabatake, Hiroshi Sakamoto
    • Journal Title

      24th Annual Symposium on Combinatorial Pattern Matching

      Volume: 7922 Pages: 235-246

    • DOI

      10.1007/978-3-642-38905-4_23

  • [Presentation] 頻度情報に基づく省スペースなオンライン文法圧縮2014

    • Author(s)
      前田幸司, 高畠嘉将, 坂本比呂志
    • Organizer
      第92回人工知能基本問題研究会
    • Place of Presentation
      函館市民会館
    • Year and Date
      20140130-20140131
  • [Presentation] 文法圧縮に基づく自己索引の省スペース化2013

    • Author(s)
      高畠嘉将, 坂本比呂志
    • Organizer
      第90回 人工知能基本問題研究会
    • Place of Presentation
      稚内日ロ友好会館
    • Year and Date
      20130718-20130719

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi