研究課題/領域番号 |
15J05902
|
研究機関 | 九州工業大学 |
研究代表者 |
高畠 嘉将 九州工業大学, 大学院情報工学府, 特別研究員(DC2)
|
研究期間 (年度) |
2015-04-24 – 2017-03-31
|
キーワード | ストリームデータ圧縮 / データ圧縮索引 / 文字列検索 / 移動付き編集距離 / 頻出パターン発見 |
研究実績の概要 |
本研究の一番の目的であるネットワークやセンサからとめどなく流れてくるストリームデータを省メモリに圧縮しながら、それまで圧縮したデータ上で高速に部分文字列検索を行うための技術の開発に成功した。これまでのデータ圧縮検索の索引の構築は入力データ長に依存したメモリ使用量が必要であったが、この技術における索引のメモリ使用量はデータ圧縮後のサイズのみである。実際に実験した結果、このデータ圧縮検索のための索引の構築におけるメモリ使用量は従来のデータ圧縮における部分文字列検索技術と比較して、2.5%から40%パーセントで実行可能である。 次にこのデータ圧縮検索上で実行可能な移動付き編集距離と呼ばれる文字列間の類似度を測る距離指標を基にした検索技術へと発展させた。この検索技術はキーワード”AAAAABBBBB”から文書中の”BBBBBAAAAA”といったひっくり返ったような文字列の発見を効率良く行うことが可能であり、剽窃の発見やソーシャルメディア上での曖昧検索に役立てることが期待できる。 さらにストリームデータを圧縮しながら、それまでに圧縮したデータ上での頻出パターンを近似発見する技術も開発した。従来のデータ圧縮を用いた手法は入力データ長のメモリ使用量が必要であったが、この技術は圧縮後のデータサイズに依存したメモリ使用量で頻出パターンを発見可能である。 これらの技術はゲノムの解析やソーシャルメディアからのトレンド抽出を省メモリかつ高速に行うこと期待できる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の一番の目的であるストリームデータを省メモリに圧縮しながら、それまで圧縮したデータ上で高速に部分文字列検索を行うための技術の開発に成功したことにより、本年度における目標を達成している。さらにこのデータ圧縮検索技術を移動付き編集距離に基づく検索技術に発展やこのデータ圧縮上での省メモリな頻出パターン発見技術の開発にも成功しており、おおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
ストリームデータに対応したために索引の構築時間や検索時間は従来手法と比べて遅くなってしまっている。また、検索時におけるメモリ使用量も増加してしまった。この原因は動的な簡潔データ構造と呼ばれるデータ構造を用いたことによるものである。この動的な簡潔データ構造を高速かつ省メモリに構築できるように改良していく予定である。 また、様々なデータ実験を行い、開発した技術の有用性を示していく。
|