研究概要 |
Webページ,関係データベース,新聞記事,ゲノム配列など,現在大量のデータが存在し,それらを有効活用するための技術の開発が重要となっている.古典的な手法では,データをディスクに格納し,それを逐次的に読み込みながら処理を行うが,これでは速度が非常に遅く,また,限られた処理しか行えない.そこで現在は「主記憶データベース」と呼ばれる,全データを計算機のメモリ(主記憶)に格納して高速処理を行う手法が取られている.しかしこの手法でもデータの検索手法は古典的なアルゴリズムとデータ構造を用いているため,以下のような問題が存在する: (1) 検索速度と,検索を行うために必要なメモリ量にはトレードオフが存在する.つまり,高速な検索を行うには大量のメモリが必要となる. (2) 主記憶量の制限により,高速な検索を行えるデータ量は非常に小さくなる. (3) データを圧縮することで必要メモリを減らすことができるが,データのランダムアクセスができなくなるため,検索が遅くなる. これらの問題を解決するために提案されたものが簡潔データ構造である. 簡潔データ構造とは,データおよびそれを高速に処理するためのデータ構造(索引)のサイズを極限まで小さくし,なおかつ従来のデータ構造と同じ処理が同じ計算量で行えるものであり,申請者や海外の研究者らによりここ数年盛んに研究されている新しい概念である.簡潔データ構造を用いれば,大量のデータと索引をメモリに格納でき,高速処理が実現できる. しかし,簡潔データ構造はまだ理論的な研究が始まったばかりであり,それを実際に活用する段階には至っていない.現在の理論的な結果をそのままプログラムとして実装すると,実行速度,索引サイズの点で満足のいくものにはなっていない.本研究では,理論的にも実際的にも優れた簡潔データ構造を開発し,それを大量データ処理に活用する.
|