研究実績の概要 |
近年,計算機性能やセンシング技術の向上,通信ネットワークの発達などを背景に,計算機上のデータが爆発的に増加している.特に,定まった形式を持たない文字列データ(非定型データ)が増加しており,巨大文字列データを解析・利用するために文字列圧縮技術の更なる発展は必要不可欠となっている.そこで,文字列を圧縮したまま様々な処理を効率的に行う「圧縮文字列処理」の研究を行い,(1) 圧縮した領域で索引を構築する「圧縮索引」,(2) 圧縮したまま最長共通接頭辞クエリに効率的に応えるためのデータ構造,(3) 圧縮アルゴリズムによって頻出文字列を発見する手法などを提案した.これらの成果をまとめた論文は,それぞれ国際会議の査読付き学会誌,Prague Stringology Conference (PSC), Mathematical Foundations of Computer Science (MFCS), International Conference on Grammatical Inference (ICGI) に受理され発表を行っている.特に,(1) と (2) に関しては,圧縮表現を工夫することで処理の効率化を行っており,本研究のテーマである「圧縮変換」の発想に基づいたものである.さらに現在,recompression の技術を応用して (2) の成果を改善することに成功しており,その成果をまとめた論文は文字列処理分野の最高峰である Combinatorial Pattern Matching (CPM) に受理されている.これらの技術は,様々なデータ処理を圧縮データ上で完結させる「次世代のデータ蓄積技術」の基盤となると考えられる.
|