2020 年度実績報告書

ストリームデータを知識化する圧縮情報処理基盤の開発

研究課題

研究課題/領域番号	17H01791
研究機関	九州工業大学
研究代表者	坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)
研究分担者	竹田正幸九州大学, システム情報科学研究院, 教授 (50216909) 申吉浩学習院大学, 付置研究所, 教授 (60523587)
研究期間 (年度)	2017-04-01 – 2022-03-31
キーワード	データ圧縮 / 可逆圧縮 / オンラインアルゴリズム / パターンマイニング
研究実績の概要	大きすぎて処理できないデータは存在しないものと同義である。本研究は、この考え方に基づいて、データ圧縮によって情報処理を加速し、巨大なデータの理解を可能にする計算基盤を提案するものである。現代は、多様で豊富なデータ、革新的なアルゴリズム、高性能なハードウェアのすべてが利用可能である。しかし、ストリームデータの激増によってこの均衡が崩れつつあり、アルゴリズムやハードウェアの飛躍的な性能向上が必要である。この問題を解決するひとつの光明として、申請者らによって，時間と領域を圧縮する手法が限定的ではあるが提案されている。本研究は圧縮情報処理の理論をストリームデータ上の広範囲な知識処理へ拡張し、ネットワーク上に氾濫する大規模非定型データの幅広い活用を可能にするべく理論と実用的なアルゴリズムとアプリケーションを構築する。本年度に得られた成果は以下にまとめられる。（１）ストリームデータの理論と実装：文法圧縮における簡潔データ構造を動的な環境で最適な時間と圧縮率を達成する理論とそれを実際に組み込んだアルゴリズムを実装した。この成果はアルゴリズムの分野の主要国際会議に採択された。（２）具体的なアプリケーションの構築：圧縮したデータを直接操作することで、データベース中のデータ同士の類似度を計算する論文剽窃検出を動的な環境で実現した。それまでの剽窃検出は、性的なデータベースを対象としていたが、このシステムでは、論文が次々と追加されていくプレプリントサーバ上で動作するなどの利点がある。このシステムのプロトタイプをgithub上で動作するようにしており、今後システムを公開する予定である。（３）非可逆圧縮への応用：これまでは可逆圧縮の理論をベースに研究を進めてきたが、当該年度は画像データや非可逆圧縮のアルゴリズムを応用してある程度の知見を得られた。部分的な成果を国内の機械学習の会議で口頭発表している。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由研究計画当初から本研究は可逆圧縮の理論に基づいた知識発見の枠組みを構築するものであり、これまでに可逆圧縮の理論とパターン発見への応用についての成果を得ている。これと並行して、最終年度前年度に非可逆圧縮の理論への応用を可能とする知見を得られたため、当初は研究計画に含まれていなかった範囲へ理論を拡張すべく、新しい理論の構築を進めている。この新しい部分に関する予備的な結果をすでに得ており、最終年度はその部分の研究発表を行う予定である。また、次年度からはこれらの成果に基づいて、新しい研究領域の設立を計画している。さらに、本研究の手法は、データ圧縮をセキュリティ分野の問題に応用することを可能とする知見を得ており、最終年度ではこの方面への研究も進める。
今後の研究の推進方策	研究当初に計画していた、可逆圧縮の理論とストリームアルゴリズムを用いたパターンマイニングの理論は完成した。また、これらの理論を応用した剽窃検出システムのプロトタイプも試作している。このアプリケーションを実際のプレプリントサーバ上の論文データに適用した予備実験も実施しており、最終年度に向けての応用研究の準備は整っている。今後は、データ規模を大幅に増加したデータベース上の大規模実証実験によって本研究の実用性を保証する。また、最終年度前年度に得られた、機械学習とデータ圧縮の応用研究に向けて、非可逆圧縮の理論の構築とアプリケーションの創成を目指す。さらに、セキュリティ分野への適用も同時に検討する。

研究成果
(3件)

すべて 2020

すべて雑誌論文 (2件) (うち国際共著 1件、査読あり 2件) 学会発表 (1件)

[雑誌論文] Practical Random Access to SLP-Compressed Texts2020
- 著者名/発表者名
  Travis Gagie, Tomohiro I, Giovanni Manzini, Gonzalo Navarro, Hiroshi Sakamoto, Louisa Seelbach Benkner, Yoshimasa Takabatake
- 雑誌名
  
  LNCS
  
  巻: 12303 ページ: 221-231
- DOI
  10.1007/978-3-030-59212-7_16
- 査読あり / 国際共著
[雑誌論文] Faster Privacy-Preserving Computation of Edit Distance with Moves2020
- 著者名/発表者名
  Yohei Yoshimoto, Masaharu Kataoka, Yoshimasa Takabatake, Tomohiro I, Kilho Shin, Hiroshi Sakamoto
- 雑誌名
  
  LNCS
  
  巻: 12049 ページ: 308-320
- DOI
  10.1007/978-3-030-39881-1_26
- 査読あり
[学会発表] 非可逆圧縮データからの高速な画像生成2020
- 著者名/発表者名
  管谷克彦, 高畠嘉将, 井智弘, 申吉浩, 坂本比呂志
- 学会等名
  IBIS2020

2020 年度 実績報告書

ストリームデータを知識化する圧縮情報処理基盤の開発

研究代表者

坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Practical Random Access to SLP-Compressed Texts2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Faster Privacy-Preserving Computation of Edit Distance with Moves2020

著者名/発表者名

雑誌名

DOI

[学会発表] 非可逆圧縮データからの高速な画像生成2020

著者名/発表者名

学会等名

2020 年度実績報告書

坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)