研究課題/領域番号 |
17H01791
|
研究機関 | 九州工業大学 |
研究代表者 |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
|
研究分担者 |
竹田 正幸 九州大学, システム情報科学研究院, 教授 (50216909)
申 吉浩 学習院大学, 計算機センター, 教授 (60523587)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
キーワード | ストリームデータ圧縮 / 知識発見 |
研究実績の概要 |
大きすぎて処理できないデータは存在しないものと同義である.本研究は,データ圧縮によって情報処理を加速し,巨大なデータの理解を可能にする計算基盤を提案する.現代は,多様で豊富なデータ,革新的なアルゴリズム,高性能なハードウェアのすべてが利用可能である.しかし,ストリームデータの激増によってこの均衡が崩れつつあり,アルゴリズムやハードウェアの飛躍的な性能向上が必要である.この問題を解決するひとつの光明として,申請者らによって,時間と領域を圧縮する手法が限定的ではあるが提案されている.本研究は,この圧縮情報処理の理論をストリームデータ上の広範囲な知識処理へ拡張し,ネットワークに氾濫する大規模非定型データの幅広い活用を可能にする.本研究の計画は,具体的な3つの目標を達成することからなっている.課題A:最適ストリーム圧縮理論の完成,課題B:ストリーム検索アルゴリズムの拡張,課題C:ストリームデータからの特徴抽出である.このうち,課題Aについては,理論的下限にほぼ等しい領域で,ストリーム圧縮が可能となる理論とアルゴリズムを完成させた.これによって,大規模ストリームデータを省スペースかつ高速に圧縮することが可能となった.さらに,このアルゴリズムを課題Bへ応用した.具体的には,これまでの圧縮索引と呼ばれる手法に適用し,ストリーム環境における圧縮索引とパターン発見を可能にした.さらに,これまではストリーム処理が困難であった圧縮法についてもオンラインアルゴリズムによる効率的な圧縮方法を確立した.これらの成果によって,課題Cに取り掛かる準備が整ったと言える.今後はリアルデータに対する特徴抽出を実現する.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
課題A:最適ストリーム圧縮理論の完成と課題B:ストリーム検索アルゴリズムの拡張について当初の計画通り順調に成果が上がっている.課題Aについては,理論的な下限とほぼ等しい領域で圧縮が可能となった.課題Bについては,これまでは困難であったBWTと呼ばれる圧縮のための前処理手法についてストリーム処理を可能とするアルゴリズムを開発した.これらの新しいアルゴリズムを開発できたことで,今後の応用の実現へ大きく前進したと考えられる.
|
今後の研究の推進方策 |
当初予定していなかった新しい成果が生まれている.まず,Re-Pairと呼ばれる非常に圧縮率がよいことで知られているが作業効率が悪いアルゴリズムに対し,再圧縮と呼ばれる手法を応用して,これまでにない省スペースなアルゴリズムを開発した.また,文字列を秘匿して比較する手法を応用してセキュリティに配慮した情報検索を可能にするシステムを開発した.また,圧縮データから機械学習する予備的な実験を始めている.これらの成果を本研究の最終目標へつなげるように新しい研究テーマを模索していく.
|