• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実績報告書

ストリームデータ圧縮の理論と知識発見への応用

研究課題

研究課題/領域番号 15J05902
研究機関九州工業大学

研究代表者

高畠 嘉将  九州工業大学, 大学院情報工学府, 特別研究員(DC2)

研究期間 (年度) 2015-04-24 – 2017-03-31
キーワード文法圧縮索引 / 文法圧縮 / オンラインアルゴリズム / 移動付き編集距離 / 頻出パターン発見
研究実績の概要

近年,繰り返し構造を多く含む文書データが世代管理システム(Dropbox,GithubやWikipediaなど)やゲノムデータベース(1000人ゲノム計画など)の普及により,TBを超えて,今尚,増加の一途を辿っている.これらのデータは,世代の復元,文書やソースコードの検索,ゲノムの解析と再利用される.したがって,本研究では,アップロードされ,増え続けるこのようなストリームデータを省領域かつ高速に小さく圧縮し,圧縮した瞬間からその圧縮データ上で高速検索可能な索引を開発することによりこれらのデータからのリアルタイムかつ圧縮領域での知識発見を目指した.この問題に有効な文法圧縮索引は繰り返しの多いデータを小さく圧縮し,その圧縮データ上で高速にキーワード検索可能である.しかし,既存の文法圧縮索引はテキスト長の領域が必要でかつオフラインアルゴリズムであるため,ストリームデータのようにデータを追加する場合には,それまで圧縮したデータを破棄し,再圧縮し直さなければならず,計算時間と領域の両方のコストが高い.そこで前年度の研究では,圧縮領域でかつ理論上は高速に新たなデータを追加可能なオンライン文法圧縮索引を開発した.本年度はその文法圧縮索引の検索技術を剽窃の発見に有効な移動付き編集距離に基づく曖昧検索に拡張した(Algorithms).また,オンライン文法圧縮索引を応用した頻出パターンを近似的に発見する技術も開発した(ICGI2016).これは既存手法ではテキスト長必要な領域を圧縮領域に削減し,より巨大な文書を扱うことが可能となる.これらの技術は速度の面で問題は残るが,そこを改善することにより,これまででは不可能なサイズのアップロードされる文書やソースコードの剽窃の発見,シーケンサから出力されるゲノムやスポーツのセンサデータの解析といった知識発見をリアルタイムに行うことが期待できる.

現在までの達成度 (段落)

28年度が最終年度であるため、記入しない。

今後の研究の推進方策

28年度が最終年度であるため、記入しない。

  • 研究成果

    (2件)

すべて 2016

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件、 謝辞記載あり 1件) 学会発表 (1件) (うち国際学会 1件)

  • [雑誌論文] siEDM: an efficient string index and search algorithm for edit distance with moves2016

    • 著者名/発表者名
      Yoshimasa Takabatake, Kenta Nakashima, Tetsuji Kuboyama, Yasuo Tabei, Hiroshi Sakamoto
    • 雑誌名

      Algorithms

      巻: 9 ページ: 1-18

    • DOI

      10.3390/a9020026

    • 査読あり / オープンアクセス / 謝辞記載あり
  • [学会発表] Online Grammar Compression for Frequent Pattern Discovery2016

    • 著者名/発表者名
      Shouhei Fukunaga, Yoshimasa Takabatake, Tomohiro. I, Hiroshi Sakamoto
    • 学会等名
      The 13th International Conference on Grammatical Inference
    • 発表場所
      Delft, The Netherlands
    • 年月日
      2016-10-05 – 2016-10-07
    • 国際学会

URL: 

公開日: 2018-01-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi