• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

ストリームデータ圧縮の理論と知識発見への応用

Research Project

Project/Area Number 15J05902
Research InstitutionKyushu Institute of Technology

Principal Investigator

高畠 嘉将  九州工業大学, 大学院情報工学府, 特別研究員(DC2)

Project Period (FY) 2015-04-24 – 2017-03-31
Keywordsストリームデータ圧縮 / データ圧縮索引 / 文字列検索 / 移動付き編集距離 / 頻出パターン発見
Outline of Annual Research Achievements

本研究の一番の目的であるネットワークやセンサからとめどなく流れてくるストリームデータを省メモリに圧縮しながら、それまで圧縮したデータ上で高速に部分文字列検索を行うための技術の開発に成功した。これまでのデータ圧縮検索の索引の構築は入力データ長に依存したメモリ使用量が必要であったが、この技術における索引のメモリ使用量はデータ圧縮後のサイズのみである。実際に実験した結果、このデータ圧縮検索のための索引の構築におけるメモリ使用量は従来のデータ圧縮における部分文字列検索技術と比較して、2.5%から40%パーセントで実行可能である。
次にこのデータ圧縮検索上で実行可能な移動付き編集距離と呼ばれる文字列間の類似度を測る距離指標を基にした検索技術へと発展させた。この検索技術はキーワード”AAAAABBBBB”から文書中の”BBBBBAAAAA”といったひっくり返ったような文字列の発見を効率良く行うことが可能であり、剽窃の発見やソーシャルメディア上での曖昧検索に役立てることが期待できる。
さらにストリームデータを圧縮しながら、それまでに圧縮したデータ上での頻出パターンを近似発見する技術も開発した。従来のデータ圧縮を用いた手法は入力データ長のメモリ使用量が必要であったが、この技術は圧縮後のデータサイズに依存したメモリ使用量で頻出パターンを発見可能である。
これらの技術はゲノムの解析やソーシャルメディアからのトレンド抽出を省メモリかつ高速に行うこと期待できる。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究の一番の目的であるストリームデータを省メモリに圧縮しながら、それまで圧縮したデータ上で高速に部分文字列検索を行うための技術の開発に成功したことにより、本年度における目標を達成している。さらにこのデータ圧縮検索技術を移動付き編集距離に基づく検索技術に発展やこのデータ圧縮上での省メモリな頻出パターン発見技術の開発にも成功しており、おおむね順調に進展しているといえる。

Strategy for Future Research Activity

ストリームデータに対応したために索引の構築時間や検索時間は従来手法と比べて遅くなってしまっている。また、検索時におけるメモリ使用量も増加してしまった。この原因は動的な簡潔データ構造と呼ばれるデータ構造を用いたことによるものである。この動的な簡潔データ構造を高速かつ省メモリに構築できるように改良していく予定である。
また、様々なデータ実験を行い、開発した技術の有用性を示していく。

  • Research Products

    (5 results)

All 2016 2015

All Presentation (5 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] ストリームデータからの頻出パターンの近似発見2016

    • Author(s)
      青山友紀, 高畠嘉将, 坂本比呂志
    • Organizer
      第99回人工知能基本問題研究会
    • Place of Presentation
      宮城県仙台市
    • Year and Date
      2016-01-21 – 2016-01-22
  • [Presentation] 文法圧縮のハッシュ領域の削減2016

    • Author(s)
      水野仁人, 高畠嘉将, 坂本比呂志
    • Organizer
      第99回人工知能基本問題研究会
    • Place of Presentation
      宮城県仙台市
    • Year and Date
      2016-01-21 – 2016-01-22
  • [Presentation] Online self-indexed grammar compression2015

    • Author(s)
      Yoshimasa Takabatake, Yasuo Tabei, Hiroshi Sakamoto
    • Organizer
      22nd edition of the International Symposium on String Processing and Information Retrieval (SPIRE)
    • Place of Presentation
      London, UK
    • Year and Date
      2015-09-01 – 2015-09-04
    • Int'l Joint Research
  • [Presentation] 文法圧縮のための逆引き辞書の省スペース化2015

    • Author(s)
      高畠嘉将, 坂本比呂志
    • Organizer
      第98回人工知能基本問題研究会
    • Place of Presentation
      和歌山県和歌山市
    • Year and Date
      2015-08-07 – 2015-08-08
  • [Presentation] siEDM: 移動付き編集距離の為の効率的な索引2015

    • Author(s)
      高畠嘉将, 中島健太, 田部井靖生, 坂本比呂志
    • Organizer
      第98回人工知能基本問題研究会
    • Place of Presentation
      和歌山県和歌山市
    • Year and Date
      2015-08-07 – 2015-08-08

URL: 

Published: 2016-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi