2013 Fiscal Year Annual Research Report

データ圧縮はテキストを要約できるか？

Research Project

Project/Area Number	23650074
Research Institution	Kyushu Institute of Technology
Principal Investigator	坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)
Co-Investigator(Kenkyū-buntansha)	久保山哲二学習院大学, 計算機センター, 教授 (80302660)
Keywords	データ圧縮 / データマイニング / 簡潔データ構造 / グラフ構造
Research Abstract	あまりにも巨大なテキストは，読むことができないデータとほぼ同じであり，このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である．本研究は，これまでに申請者が開発した，テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで，GB 超～TB クラスの巨大テキスト同士の直接比較を可能にし，これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する．本課題では曖昧検索と部分構造抽出を可能とする理論拡張を行った．その結果として，圧縮データによる要約技術を実世界データへ適用することが可能となった．具体的には以下の成果を上げた．【基礎理論の構築】最終年度以前では，木構造の分解による索引構造の構築および簡潔データ構造のデータ圧縮への応用について理論の拡張を行った．この理論に基づき，最終年度では圧縮マイニングの定式化とネットワーク分析への応用について集中的に研究を行った．その結果，大規模グラフ構造からの知識を抽出する新しいアルゴリズムを構築した．【アルゴリズムの実装】これまでのアルゴリズムでは圧縮データから曖昧検索ができない．そこで，前年度までに完成した理論を実装し，正規表現を部分的にカバーする曖昧検索を圧縮データ上で実現した．また，このアルゴリズムを並列化し，より大規模データに適用可能とした．【実世界への応用と情報発信】これまでに開発した類似性判定や高速照合の技術を用いて，最終年度では，文字列の類似度を高速に判定するオンラインアルゴリズムを開発し，ツイッターデータなどに適用し，その規模耐性や有効性を検証した．その結果，類似しているが全く同じではない記載を高速に抽出できることを確認した．

Research Products
(5 results)

All 2014 2013

All Journal Article (3 results) Presentation (2 results)

[Journal Article] A Reconfigurable Stream Compression Hardware based on Static Symbol-Lookup Table2014
- Author(s)
  S. Yamagiwa, H. Sakamoto
- Journal Title
  
  The First Workshop on Benchmarks, Performance Optimization, and Emerging hardware of Big Data Systems and Applications
  
  Volume: 1 Pages: 86-93
- DOI
  10.1109/BigData.2013.6691702
[Journal Article] Fully-Online Grammar Compression2013
- Author(s)
  S. Maruyama, Y. Tabei, H. Sakamoto, K. Sadakane
- Journal Title
  
  20th International Symposium on String Processing and Information Retrieval
  
  Volume: 8214 Pages: 218-229
- DOI
  10.1007/978-3-319-02432-5_25
[Journal Article] A Succinct Grammar Compression2013
- Author(s)
  Yasuo Tabei, Yoshimasa Takabatake, Hiroshi Sakamoto
- Journal Title
  
  24th Annual Symposium on Combinatorial Pattern Matching
  
  Volume: 7922 Pages: 235-246
- DOI
  10.1007/978-3-642-38905-4_23
[Presentation] 頻度情報に基づく省スペースなオンライン文法圧縮2014
- Author(s)
  前田幸司, 高畠嘉将, 坂本比呂志
- Organizer
  第92回人工知能基本問題研究会
- Place of Presentation
  函館市民会館
- Year and Date
  20140130-20140131
[Presentation] 文法圧縮に基づく自己索引の省スペース化2013
- Author(s)
  高畠嘉将, 坂本比呂志
- Organizer
  第90回人工知能基本問題研究会
- Place of Presentation
  稚内日ロ友好会館
- Year and Date
  20130718-20130719

2013 Fiscal Year Annual Research Report

データ圧縮はテキストを要約できるか？

Principal Investigator

坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)

Research Products

[Journal Article] A Reconfigurable Stream Compression Hardware based on Static Symbol-Lookup Table2014

Author(s)

Journal Title

DOI

[Journal Article] Fully-Online Grammar Compression2013

Author(s)

Journal Title

DOI

[Journal Article] A Succinct Grammar Compression2013

Author(s)

Journal Title

DOI

[Presentation] 頻度情報に基づく省スペースなオンライン文法圧縮2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 文法圧縮に基づく自己索引の省スペース化2013

Author(s)

Organizer

Place of Presentation

Year and Date

坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)