研究課題/領域番号 |
17H01791
|
研究機関 | 九州工業大学 |
研究代表者 |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
|
研究分担者 |
竹田 正幸 九州大学, システム情報科学研究院, 教授 (50216909)
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
キーワード | データ圧縮 / ストリームデータ / データマイニング / 機械学習 / プライバシー保護 |
研究実績の概要 |
大きすぎて処理できないデータは存在しないものと同義である.本研究は,データ圧縮によって情報処理を加速し,巨大なデータの理解を可能にする計算基盤を提案したい.現代は,多様で豊富なデータ,革新的なアルゴリズム,高性能なハードウェアのすべてが利用可能である.しかし,ストリームデータの激増によってこの均衡が崩れつつあり,アルゴリズムやハードウェアの飛躍的な性能向上が必要である.この問題を解決するひとつの光明として,申請者らによって,時間と領域を圧縮する手法が限定的ではあるが提案されている.本研究は圧縮情報処理の理論をストリームデータ上の広範囲な知識処理へ拡張し,ネットワーク上に氾濫する大規模非定型データの幅広い活用を可能にする. 研究代表者らは,これまでに高速データ圧縮アルゴリズムを圧縮索引や圧縮所法検索へ応用してきたが,本研究ではそれをデータマイニングや機械学習等へ応用することを目指している.今年度は,その応用として,これらの圧縮アルゴリズムを大規模なデータベースからのリアルタイムの剽窃を検出するシステムやプライバシー保護マイニングへ応用してその性能を確認した.剽窃検出システムでは,arXivデータから非常に長いテキストの一致部分を剽窃の候補として検出することに成功した.これほどの長さの一致を発見することは従来手法では困難である.また,本手法では,データをインデックス化しており,検索も非常に高速である.一方,プライバシー保護マイニングでは,暗号化されたデータ同士のある種の編集距離を計算することに成功した.この編集距離のプライバシー保護計算は世界初である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
プレプリントサーバにアップロードされている論文を対象とした剽窃検出は例がなく,今回提案した手法によって,一致長が数千を超える文字列の完全一致を検出しており,n-gramなどの従来の手法ではこのような長さをとらえることは困難である.また,プライバシー保護マイニングにおいては,従来手法と比べて数十倍の高速化を達成した.これによって大規模テキストへの実用化が可能となった.このプライバシー保護手法は出願済みである.
|
今後の研究の推進方策 |
剽窃検出システムは入力方法や検索結果の可視化等を改善して,アプリケーションとして開発し,公開する予定である.非常に長い一致を検索することは,様々なデータに対して有用であり,今回の手法は,与えられたパターンを検索するのみならず,データベース全体から類似した任意の組を探し出すことができ,データマイニング的な利用方法も考えられるため,新しい応用を模索する. プライバシー保護マイニング手法は,さらに高速化し,編集距離の計算以外に様々な機械学習の問題へ応用する予定である.
|