2016 Fiscal Year Annual Research Report
Developing a Smart Storage based on a Succinct Data Structure that Processes Compressed Data
Project/Area Number |
15K15958
|
Research Institution | Tohoku University |
Principal Investigator |
|
Project Period (FY) |
2015-04-01 – 2017-03-31
|
Keywords | 簡潔データ構造 / 文字列処理 / ビッギデータ応用 / 高速ストレージ |
Outline of Annual Research Achievements |
文字列処理,グラフ処理,データマイニングなどの様々なビッグデータ応用の高速化は重要であるが,データ量が膨大でありデータ転送が処理のボトルネックになっている.本研究では,圧縮データのまま計算できる簡潔データ構造に着目し,演算と記憶を一体化したスマートストレージの開発を目的とした.本研究プロジェクトで得られた研究成果を以下で述べる.
多くの文字列処理ではビッグデータが用いられ,データアクセスが処理のボトルネックになることが多い.文字列データをブロックに分け圧縮しブロックごとに文字数のインデックス情報を持つことにより,任意の場所から伸長可能な簡潔データ構造を実現できる.しかしながら,ブロックごとの圧縮率のばらつきが非常に大きいのは問題である.本研究では,ブロックの特徴によりクラスタリングし, クラスタごとに一つの辞書で圧縮する方法を提案した.提案により,各ブロックの圧縮率を一定にし,全体のデータ量を削減できる.さらに,文字列データを木のような階層構造で表し,各階層ではビット列ごとにブロック圧縮を行う「ウェーブレット木」に基づく圧縮方法を提案した.ビット圧縮により文字の種類を削減し,ブロック圧縮におけるインデックス データ量を削減した.再構成可能なハードウェア(FPGA)を使い,提案手法を用いた文字列処理アクセラレータを実装した.その結果テータ量を27%まで削減できた.また,データ圧縮によりメモリアクセスを従来と比べ73%までに減らすことができた.
遺伝子配列データを簡潔データ構造により圧縮し,伸長せずに計算に用いるスマートストレージ構造を提案した. 提案アーキテクチャをFPGAで実装し,従来の方法と比べ22倍高速な遺伝子配列アラインメント処理を実現した. このようなアクセラレータの設計ができるC言語を用いたハードウェア構築について研究を行い,設計時間を従来の1/10までに削減した.
|
Research Products
(12 results)