本研究ではTBを超えて増加し続ける世代管理システムやゲノムデータベース上の繰り返しの多い文書データを高速かつ省メモリに小さく圧縮しながら,その圧縮データ上でリアルタイムのキーワード検索可能な世界最小の作業領域の圧縮索引の開発を目指している.本年度も昨年度に引き続き,高速かつ省メモリに小さく圧縮するデータ圧縮法の開発に注力し,以下の成果を上げている.文法圧縮と呼ばれるデータ圧縮の中で最高の圧縮率を達成する一方で,入力の10倍近くのメモリ使用量を使用するRePairと呼ばれる圧縮法を実用的に省メモリかつ高速に計算する手法を提案した(SPIRE’19).その手法は高速かつ省メモリに動作するがそこまで圧縮率のよくない圧縮法で事前に圧縮しておき,その圧縮データからRePairの圧縮データを高速に計算することで実現している.実際にゲノムデータ集合に対してその手法を適用したところ,元のRePairの約60%程度の計算時間かつ10%程度の作業領域で元のRePairとほぼ同等の圧縮率を達成することに成功した.また,RePairの世界初のin-placeアルゴリズムを開発した(DCC’20).in-placeアルゴリズムとは入力データと同じサイズの作業領域のみで計算するアルゴリズムである.さらに文法圧縮を応用した移動付き編集距離と呼ばれる2つの文字列間の類似度計算の秘匿計算を高速化する方法も開発し,既存手法の約300倍の高速化に成功した(WALCOM’20).以上のように本年度は目指している圧縮索引の基盤技術となるデータ圧縮およびそれを応用した秘匿計算の開発を行い,それぞれ,国際会議にて発表している.
|