研究課題/領域番号 |
17H01791
|
研究機関 | 九州工業大学 |
研究代表者 |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
|
研究分担者 |
竹田 正幸 九州大学, システム情報科学研究院, 教授 (50216909)
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
キーワード | データ圧縮 / 可逆圧縮 / オンラインアルゴリズム / パターンマイニング |
研究実績の概要 |
大きすぎて処理できないデータは存在しないものと同義である。本研究は、この考え方に基づいて、データ圧縮によって情報処理を加速し、巨大なデータの理解を可能にする計算基盤を提案するものである。現代は、多様で豊富なデータ、革新的なアルゴリズム、高性能なハードウェアのすべてが利用可能である。しかし、ストリームデータの激増によってこの均衡が崩れつつあり、アルゴリズムやハードウェアの飛躍的な性能向上が必要である。この問題を解決するひとつの光明として、申請者らによって,時間と領域を圧縮する手法が限定的ではあるが提案されている。本研究は圧縮情報処理の理論をストリームデータ上の広範囲な知識処理へ拡張し、ネットワーク上に氾濫する大規模非定型データの幅広い活用を可能にするべく理論と実用的なアルゴリズムとアプリケーションを構築する。 本年度に得られた成果は以下にまとめられる。 (1)ストリームデータの理論と実装:文法圧縮における簡潔データ構造を動的な環境で最適な時間と圧縮率を達成する理論とそれを実際に組み込んだアルゴリズムを実装した。この成果はアルゴリズムの分野の主要国際会議に採択された。 (2)具体的なアプリケーションの構築:圧縮したデータを直接操作することで、データベース中のデータ同士の類似度を計算する論文剽窃検出を動的な環境で実現した。それまでの剽窃検出は、性的なデータベースを対象としていたが、このシステムでは、論文が次々と追加されていくプレプリントサーバ上で動作するなどの利点がある。このシステムのプロトタイプをgithub上で動作するようにしており、今後システムを公開する予定である。 (3)非可逆圧縮への応用:これまでは可逆圧縮の理論をベースに研究を進めてきたが、当該年度は画像データや非可逆圧縮のアルゴリズムを応用してある程度の知見を得られた。部分的な成果を国内の機械学習の会議で口頭発表している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究計画当初から本研究は可逆圧縮の理論に基づいた知識発見の枠組みを構築するものであり、これまでに可逆圧縮の理論とパターン発見への応用についての成果を得ている。これと並行して、最終年度前年度に非可逆圧縮の理論への応用を可能とする知見を得られたため、当初は研究計画に含まれていなかった範囲へ理論を拡張すべく、新しい理論の構築を進めている。この新しい部分に関する予備的な結果をすでに得ており、最終年度はその部分の研究発表を行う予定である。また、次年度からはこれらの成果に基づいて、新しい研究領域の設立を計画している。さらに、本研究の手法は、データ圧縮をセキュリティ分野の問題に応用することを可能とする知見を得ており、最終年度ではこの方面への研究も進める。
|
今後の研究の推進方策 |
研究当初に計画していた、可逆圧縮の理論とストリームアルゴリズムを用いたパターンマイニングの理論は完成した。また、これらの理論を応用した剽窃検出システムのプロトタイプも試作している。このアプリケーションを実際のプレプリントサーバ上の論文データに適用した予備実験も実施しており、最終年度に向けての応用研究の準備は整っている。今後は、データ規模を大幅に増加したデータベース上の大規模実証実験によって本研究の実用性を保証する。また、最終年度前年度に得られた、機械学習とデータ圧縮の応用研究に向けて、非可逆圧縮の理論の構築とアプリケーションの創成を目指す。さらに、セキュリティ分野への適用も同時に検討する。
|