• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

ストリームデータを知識化する圧縮情報処理基盤の開発

Research Project

Project/Area Number 17H01791
Research InstitutionKyushu Institute of Technology

Principal Investigator

坂本 比呂志  九州工業大学, 大学院情報工学研究院, 教授 (50315123)

Co-Investigator(Kenkyū-buntansha) 竹田 正幸  九州大学, システム情報科学研究院, 教授 (50216909)
申 吉浩  学習院大学, 付置研究所, 教授 (60523587)
Project Period (FY) 2017-04-01 – 2022-03-31
Keywordsデータ圧縮 / ストリームデータ / データマイニング / 機械学習 / プライバシー保護
Outline of Annual Research Achievements

大きすぎて処理できないデータは存在しないものと同義である.本研究は,データ圧縮によって情報処理を加速し,巨大なデータの理解を可能にする計算基盤を提案したい.現代は,多様で豊富なデータ,革新的なアルゴリズム,高性能なハードウェアのすべてが利用可能である.しかし,ストリームデータの激増によってこの均衡が崩れつつあり,アルゴリズムやハードウェアの飛躍的な性能向上が必要である.この問題を解決するひとつの光明として,申請者らによって,時間と領域を圧縮する手法が限定的ではあるが提案されている.本研究は圧縮情報処理の理論をストリームデータ上の広範囲な知識処理へ拡張し,ネットワーク上に氾濫する大規模非定型データの幅広い活用を可能にする.
研究代表者らは,これまでに高速データ圧縮アルゴリズムを圧縮索引や圧縮所法検索へ応用してきたが,本研究ではそれをデータマイニングや機械学習等へ応用することを目指している.今年度は,その応用として,これらの圧縮アルゴリズムを大規模なデータベースからのリアルタイムの剽窃を検出するシステムやプライバシー保護マイニングへ応用してその性能を確認した.剽窃検出システムでは,arXivデータから非常に長いテキストの一致部分を剽窃の候補として検出することに成功した.これほどの長さの一致を発見することは従来手法では困難である.また,本手法では,データをインデックス化しており,検索も非常に高速である.一方,プライバシー保護マイニングでは,暗号化されたデータ同士のある種の編集距離を計算することに成功した.この編集距離のプライバシー保護計算は世界初である.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

プレプリントサーバにアップロードされている論文を対象とした剽窃検出は例がなく,今回提案した手法によって,一致長が数千を超える文字列の完全一致を検出しており,n-gramなどの従来の手法ではこのような長さをとらえることは困難である.また,プライバシー保護マイニングにおいては,従来手法と比べて数十倍の高速化を達成した.これによって大規模テキストへの実用化が可能となった.このプライバシー保護手法は出願済みである.

Strategy for Future Research Activity

剽窃検出システムは入力方法や検索結果の可視化等を改善して,アプリケーションとして開発し,公開する予定である.非常に長い一致を検索することは,様々なデータに対して有用であり,今回の手法は,与えられたパターンを検索するのみならず,データベース全体から類似した任意の組を探し出すことができ,データマイニング的な利用方法も考えられるため,新しい応用を模索する.
プライバシー保護マイニング手法は,さらに高速化し,編集距離の計算以外に様々な機械学習の問題へ応用する予定である.

  • Research Products

    (6 results)

All 2020 2019 Other

All Int'l Joint Research (3 results) Journal Article (2 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 2 results) Patent(Industrial Property Rights) (1 results)

  • [Int'l Joint Research] CeBiB/Santiago(チリ)

    • Country Name
      CHILE
    • Counterpart Institution
      CeBiB/Santiago
  • [Int'l Joint Research] Faculty of Computer Science/Dalhousie University(カナダ)

    • Country Name
      CANADA
    • Counterpart Institution
      Faculty of Computer Science/Dalhousie University
  • [Int'l Joint Research] University of Eastern Piedmont/Alessandria(イタリア)

    • Country Name
      ITALY
    • Counterpart Institution
      University of Eastern Piedmont/Alessandria
  • [Journal Article] Faster Privacy-Preserving Computation of Edit Distance with Moves2020

    • Author(s)
      Yohei Yoshimoto, Masaharu Kataoka, Yoshimasa Takabatake, Tomohiro I, Kilho Shin, Hiroshi Sakamoto
    • Journal Title

      LNCS

      Volume: 12049 Pages: 308-320

    • DOI

      10.1007/978-3-030-39881-1_26

    • Peer Reviewed
  • [Journal Article] pair: Rescaling RePair with Rsync2019

    • Author(s)
      Travis Gagie, Tomohiro I, Giovanni Manzini, Gonzalo Navarro, Hiroshi Sakamoto, Yoshimasa Takabatake
    • Journal Title

      SPIRE 2019

      Volume: LNCS11811 Pages: 35-44

    • DOI

      ttps://doi.org/10.1007/978-3-030-32686-9_3

    • Peer Reviewed / Int'l Joint Research
  • [Patent(Industrial Property Rights)] 秘匿検索システム及び秘匿検索プログラム2019

    • Inventor(s)
      坂本比呂志 申吉浩
    • Industrial Property Rights Holder
      坂本比呂志 申吉浩
    • Industrial Property Rights Type
      特許
    • Industrial Property Number
      特願2019-93908

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi