• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

ストリームデータ圧縮の理論と知識発見への応用

研究課題

研究課題/領域番号 15J05902
研究種目

特別研究員奨励費

配分区分補助金
応募区分国内
研究分野 知能情報学
研究機関九州工業大学

研究代表者

高畠 嘉将  九州工業大学, 大学院情報工学府, 特別研究員(DC2)

研究期間 (年度) 2015-04-24 – 2017-03-31
研究課題ステータス 完了 (2016年度)
配分額 *注記
1,700千円 (直接経費: 1,700千円)
2016年度: 800千円 (直接経費: 800千円)
2015年度: 900千円 (直接経費: 900千円)
キーワード文法圧縮索引 / 文法圧縮 / オンラインアルゴリズム / 移動付き編集距離 / 頻出パターン発見 / ストリームデータ圧縮 / データ圧縮索引 / 文字列検索
研究実績の概要

近年,繰り返し構造を多く含む文書データが世代管理システム(Dropbox,GithubやWikipediaなど)やゲノムデータベース(1000人ゲノム計画など)の普及により,TBを超えて,今尚,増加の一途を辿っている.これらのデータは,世代の復元,文書やソースコードの検索,ゲノムの解析と再利用される.したがって,本研究では,アップロードされ,増え続けるこのようなストリームデータを省領域かつ高速に小さく圧縮し,圧縮した瞬間からその圧縮データ上で高速検索可能な索引を開発することによりこれらのデータからのリアルタイムかつ圧縮領域での知識発見を目指した.この問題に有効な文法圧縮索引は繰り返しの多いデータを小さく圧縮し,その圧縮データ上で高速にキーワード検索可能である.しかし,既存の文法圧縮索引はテキスト長の領域が必要でかつオフラインアルゴリズムであるため,ストリームデータのようにデータを追加する場合には,それまで圧縮したデータを破棄し,再圧縮し直さなければならず,計算時間と領域の両方のコストが高い.そこで前年度の研究では,圧縮領域でかつ理論上は高速に新たなデータを追加可能なオンライン文法圧縮索引を開発した.本年度はその文法圧縮索引の検索技術を剽窃の発見に有効な移動付き編集距離に基づく曖昧検索に拡張した(Algorithms).また,オンライン文法圧縮索引を応用した頻出パターンを近似的に発見する技術も開発した(ICGI2016).これは既存手法ではテキスト長必要な領域を圧縮領域に削減し,より巨大な文書を扱うことが可能となる.これらの技術は速度の面で問題は残るが,そこを改善することにより,これまででは不可能なサイズのアップロードされる文書やソースコードの剽窃の発見,シーケンサから出力されるゲノムやスポーツのセンサデータの解析といった知識発見をリアルタイムに行うことが期待できる.

現在までの達成度 (段落)

28年度が最終年度であるため、記入しない。

今後の研究の推進方策

28年度が最終年度であるため、記入しない。

報告書

(2件)
  • 2016 実績報告書
  • 2015 実績報告書
  • 研究成果

    (7件)

すべて 2016 2015

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (6件) (うち国際学会 2件)

  • [雑誌論文] siEDM: An Efficient String Index and Search Algorithm for Edit Distance with Moves2016

    • 著者名/発表者名
      Yoshimasa Takabatake, Kenta Nakashima, Tetsuji Kuboyama, Yasuo Tabei, Hiroshi Sakamoto
    • 雑誌名

      Algorithms

      巻: 9(2) 号: 2 ページ: 26-26

    • DOI

      10.3390/a9020026

    • 関連する報告書
      2016 実績報告書
    • 査読あり / オープンアクセス
  • [学会発表] Online Grammar Compression for Frequent Pattern Discovery2016

    • 著者名/発表者名
      Shouhei Fukunaga, Yoshimasa Takabatake, Tomohiro. I, Hiroshi Sakamoto
    • 学会等名
      The 13th International Conference on Grammatical Inference
    • 発表場所
      Delft, The Netherlands
    • 年月日
      2016-10-05
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] ストリームデータからの頻出パターンの近似発見2016

    • 著者名/発表者名
      青山友紀, 高畠嘉将, 坂本比呂志
    • 学会等名
      第99回人工知能基本問題研究会
    • 発表場所
      宮城県仙台市
    • 年月日
      2016-01-21
    • 関連する報告書
      2015 実績報告書
  • [学会発表] 文法圧縮のハッシュ領域の削減2016

    • 著者名/発表者名
      水野仁人, 高畠嘉将, 坂本比呂志
    • 学会等名
      第99回人工知能基本問題研究会
    • 発表場所
      宮城県仙台市
    • 年月日
      2016-01-21
    • 関連する報告書
      2015 実績報告書
  • [学会発表] Online self-indexed grammar compression2015

    • 著者名/発表者名
      Yoshimasa Takabatake, Yasuo Tabei, Hiroshi Sakamoto
    • 学会等名
      22nd edition of the International Symposium on String Processing and Information Retrieval (SPIRE)
    • 発表場所
      London, UK
    • 年月日
      2015-09-01
    • 関連する報告書
      2015 実績報告書
    • 国際学会
  • [学会発表] 文法圧縮のための逆引き辞書の省スペース化2015

    • 著者名/発表者名
      高畠嘉将, 坂本比呂志
    • 学会等名
      第98回人工知能基本問題研究会
    • 発表場所
      和歌山県和歌山市
    • 年月日
      2015-08-07
    • 関連する報告書
      2015 実績報告書
  • [学会発表] siEDM: 移動付き編集距離の為の効率的な索引2015

    • 著者名/発表者名
      高畠嘉将, 中島健太, 田部井靖生, 坂本比呂志
    • 学会等名
      第98回人工知能基本問題研究会
    • 発表場所
      和歌山県和歌山市
    • 年月日
      2015-08-07
    • 関連する報告書
      2015 実績報告書

URL: 

公開日: 2015-11-26   更新日: 2024-03-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi