2019 Fiscal Year Annual Research Report

ストリームデータを知識化する圧縮情報処理基盤の開発

Research Project

Project/Area Number	17H01791
Research Institution	Kyushu Institute of Technology
Principal Investigator	坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)
Co-Investigator(Kenkyū-buntansha)	竹田正幸九州大学, システム情報科学研究院, 教授 (50216909) 申吉浩学習院大学, 付置研究所, 教授 (60523587)
Project Period (FY)	2017-04-01 – 2022-03-31
Keywords	データ圧縮 / ストリームデータ / データマイニング / 機械学習 / プライバシー保護
Outline of Annual Research Achievements	大きすぎて処理できないデータは存在しないものと同義である．本研究は，データ圧縮によって情報処理を加速し，巨大なデータの理解を可能にする計算基盤を提案したい．現代は，多様で豊富なデータ，革新的なアルゴリズム，高性能なハードウェアのすべてが利用可能である．しかし，ストリームデータの激増によってこの均衡が崩れつつあり，アルゴリズムやハードウェアの飛躍的な性能向上が必要である．この問題を解決するひとつの光明として，申請者らによって，時間と領域を圧縮する手法が限定的ではあるが提案されている．本研究は圧縮情報処理の理論をストリームデータ上の広範囲な知識処理へ拡張し，ネットワーク上に氾濫する大規模非定型データの幅広い活用を可能にする．研究代表者らは，これまでに高速データ圧縮アルゴリズムを圧縮索引や圧縮所法検索へ応用してきたが，本研究ではそれをデータマイニングや機械学習等へ応用することを目指している．今年度は，その応用として，これらの圧縮アルゴリズムを大規模なデータベースからのリアルタイムの剽窃を検出するシステムやプライバシー保護マイニングへ応用してその性能を確認した．剽窃検出システムでは，arXivデータから非常に長いテキストの一致部分を剽窃の候補として検出することに成功した．これほどの長さの一致を発見することは従来手法では困難である．また，本手法では，データをインデックス化しており，検索も非常に高速である．一方，プライバシー保護マイニングでは，暗号化されたデータ同士のある種の編集距離を計算することに成功した．この編集距離のプライバシー保護計算は世界初である．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason プレプリントサーバにアップロードされている論文を対象とした剽窃検出は例がなく，今回提案した手法によって，一致長が数千を超える文字列の完全一致を検出しており，n-gramなどの従来の手法ではこのような長さをとらえることは困難である．また，プライバシー保護マイニングにおいては，従来手法と比べて数十倍の高速化を達成した．これによって大規模テキストへの実用化が可能となった．このプライバシー保護手法は出願済みである．
Strategy for Future Research Activity	剽窃検出システムは入力方法や検索結果の可視化等を改善して，アプリケーションとして開発し，公開する予定である．非常に長い一致を検索することは，様々なデータに対して有用であり，今回の手法は，与えられたパターンを検索するのみならず，データベース全体から類似した任意の組を探し出すことができ，データマイニング的な利用方法も考えられるため，新しい応用を模索する．プライバシー保護マイニング手法は，さらに高速化し，編集距離の計算以外に様々な機械学習の問題へ応用する予定である．

Research Products
(6 results)

All 2020 2019 Other

All Int'l Joint Research (3 results) Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results) Patent(Industrial Property Rights) (1 results)

[Int'l Joint Research] CeBiB/Santiago(チリ)
- Country Name
  CHILE
- Counterpart Institution
  CeBiB/Santiago
[Int'l Joint Research] Faculty of Computer Science/Dalhousie University(カナダ)
- Country Name
  CANADA
- Counterpart Institution
  Faculty of Computer Science/Dalhousie University
[Int'l Joint Research] University of Eastern Piedmont/Alessandria(イタリア)
- Country Name
  ITALY
- Counterpart Institution
  University of Eastern Piedmont/Alessandria
[Journal Article] Faster Privacy-Preserving Computation of Edit Distance with Moves2020
- Author(s)
  Yohei Yoshimoto, Masaharu Kataoka, Yoshimasa Takabatake, Tomohiro I, Kilho Shin, Hiroshi Sakamoto
- Journal Title
  
  LNCS
  
  Volume: 12049 Pages: 308-320
- DOI
  10.1007/978-3-030-39881-1_26
- Peer Reviewed
[Journal Article] pair: Rescaling RePair with Rsync2019
- Author(s)
  Travis Gagie, Tomohiro I, Giovanni Manzini, Gonzalo Navarro, Hiroshi Sakamoto, Yoshimasa Takabatake
- Journal Title
  
  SPIRE 2019
  
  Volume: LNCS11811 Pages: 35-44
- DOI
  ttps://doi.org/10.1007/978-3-030-32686-9_3
- Peer Reviewed / Int'l Joint Research
[Patent(Industrial Property Rights)] 秘匿検索システム及び秘匿検索プログラム2019
- Inventor(s)
  坂本比呂志　申吉浩
- Industrial Property Rights Holder
  坂本比呂志　申吉浩
- Industrial Property Rights Type
  特許
- Industrial Property Number
  特願2019-93908

2019 Fiscal Year Annual Research Report

ストリームデータを知識化する圧縮情報処理基盤の開発

Principal Investigator

坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] CeBiB/Santiago(チリ)

Country Name

Counterpart Institution

[Int'l Joint Research] Faculty of Computer Science/Dalhousie University(カナダ)

Country Name

Counterpart Institution

[Int'l Joint Research] University of Eastern Piedmont/Alessandria(イタリア)

Country Name

Counterpart Institution

[Journal Article] Faster Privacy-Preserving Computation of Edit Distance with Moves2020

Author(s)

Journal Title

DOI

[Journal Article] pair: Rescaling RePair with Rsync2019

Author(s)

Journal Title

DOI

[Patent(Industrial Property Rights)] 秘匿検索システム及び秘匿検索プログラム2019

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Industrial Property Number

坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)