2019 Fiscal Year Research-status Report
最適な作業領域の文法圧縮に基づく索引とストリームデータからの知識発見への応用
Project/Area Number |
18K18111
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
高畠 嘉将 九州工業大学, 大学院情報工学研究院, 特任助教 (20807010)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | データ圧縮 / 文法圧縮 / 圧縮検索 |
Outline of Annual Research Achievements |
本研究ではTBを超えて増加し続ける世代管理システムやゲノムデータベース上の繰り返しの多い文書データを高速かつ省メモリに小さく圧縮しながら,その圧縮データ上でリアルタイムのキーワード検索可能な世界最小の作業領域の圧縮索引の開発を目指している.本年度も昨年度に引き続き,高速かつ省メモリに小さく圧縮するデータ圧縮法の開発に注力し,以下の成果を上げている.文法圧縮と呼ばれるデータ圧縮の中で最高の圧縮率を達成する一方で,入力の10倍近くのメモリ使用量を使用するRePairと呼ばれる圧縮法を実用的に省メモリかつ高速に計算する手法を提案した(SPIRE’19).その手法は高速かつ省メモリに動作するがそこまで圧縮率のよくない圧縮法で事前に圧縮しておき,その圧縮データからRePairの圧縮データを高速に計算することで実現している.実際にゲノムデータ集合に対してその手法を適用したところ,元のRePairの約60%程度の計算時間かつ10%程度の作業領域で元のRePairとほぼ同等の圧縮率を達成することに成功した.また,RePairの世界初のin-placeアルゴリズムを開発した(DCC’20).in-placeアルゴリズムとは入力データと同じサイズの作業領域のみで計算するアルゴリズムである.さらに文法圧縮を応用した移動付き編集距離と呼ばれる2つの文字列間の類似度計算の秘匿計算を高速化する方法も開発し,既存手法の約300倍の高速化に成功した(WALCOM’20).以上のように本年度は目指している圧縮索引の基盤技術となるデータ圧縮およびそれを応用した秘匿計算の開発を行い,それぞれ,国際会議にて発表している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
目指している圧縮索引の基盤技術であるデータ圧縮の開発およびそれを応用した秘匿計算の高速化を行い,査読付き国際会議論文2件およびポスター発表1件の成果を上げており,当該研究が順調に進んでいるといえる.
|
Strategy for Future Research Activity |
近年提案されている圧縮索引の調査を行いつつ,今年度までの当研究および2017年度に開発したデータ圧縮をキーワード検索可能に拡張およびブラッシュアップして,当該研究が目指す圧縮索引の開発を行っていく.
|
-
-
[Presentation] Re-Pair in Small Space2020
Author(s)
Dominik Dominik K{\"{o}}ppl , Tomohiro I, Isamu Furuya, Yoshimasa Takabatake, Kensuke Sakai, Keisuke Goto
Organizer
Data Compression Conference
Int'l Joint Research
-
[Presentation] Rpair: Rescaling RePair with Rsync2019
Author(s)
Travis Gagie, Tomohiro I, Giovanni Manzini, Gonzalo Navarro, Hiroshi Sakamoto, Yoshimasa Takabatake
Organizer
The 26th International Symposium on String Processing and Information Retrieval
Int'l Joint Research