2019 Fiscal Year Research-status Report
Project/Area Number |
18K11149
|
Research Institution | Hokkaido University |
Principal Investigator |
喜田 拓也 北海道大学, 情報科学研究院, 准教授 (70343316)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 高階圧縮 / ラムダ計算 / 文法圧縮 / 大規模データ / 透過的データ圧縮法 |
Outline of Annual Research Achievements |
本研究の目的は,高階圧縮と呼ばれるデータ圧縮方式の効率よい処理アルゴリズムを開発することである.ここで「効率よい」とは,次の三つの観点において優れていることである.第一には,データをどれだけコンパクトに表現できるかという圧縮率の観点である.第二には,処理時間とメモリ消費量をどれだけ抑えられるかという計算量の観点である.第三には,圧縮後のデータ自体が,後の情報検索やデータ解析の際にどのくらい利用しやすいかというデータ活用の観点である.
既存の高階圧縮の圧縮処理アルゴリズムは処理速度に一番の難点がある.高速に圧縮処理を行うためには,入力データから共通する部分構造をすばやく見つけ出し,ラムダ式として抽出しなければならない.既存手法では,まず入力データを直線状の木構造に変換し,その後,頻出するすべての可能な部分木を探索して,ラムダ計算の逆計算にあたる操作によって木構造をコンパクトにまとめていくという手順を取る.この手法の問題点は,探索すべき部分木の種類が組み合わせ的に増大してしまうことである.
申請者らはこれまでに,入力データの繰り返し部分を表現するラムダ式を高速に抽出するアルゴリズムを開発している.このアルゴリズムを既存手法に組み入れることで,全体の圧縮速度を改善することができる.また,高階圧縮のサブクラスである文法圧縮についての研究において,理論的に優れた文法を生成することのできる手法(MR-RePairアルゴリズム)の開発に成功した.MR-RePairは,特に繰り返しの多いデータに対して優れた性能を発揮する.本年度は,これまでに提案したラムダ式抽出アルゴリズムおよびMR-RePairアルゴリズムのさらなる解析を推し進め,その詳細を雑誌論文として取りまとめた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
我々が提案したラムダ式抽出アルゴリズムについて理論的解析の成果を改めてとりまとめ直し,雑誌Algorithms(MDPI)の「Data Compression Algorithms and their Applications」への掲載に至った.一方,MR-RePairについても,昨年度の成果を雑誌論文として取りまとめたものを投稿したが,残念ながら採録には至っておらず,引き続き内容の精査と改稿を行ってきた.これらのことを鑑み,「おおむね順調に進展している。」と結論付けた次第である.
|
Strategy for Future Research Activity |
昨年に引き続き,成果の上がった文法圧縮に関してさらに研究を押し進める.具体的には,MR-RePairが生成する文法のサイズが最小文法サイズに比べてどの程度の近似解になっているかの理論的解析を行う.また,一般にはNP困難であると知られている最小文法生成アルゴリズムについて調査を行い,より精度の高い近似アルゴリズムもしくは現実的なデータサイズに対して実行可能な効率よい最初文法生成アルゴリズムの開発に挑戦する.また,高階圧縮に関しては,文法圧縮を介した再圧縮アルゴリズムの開発に取り組む.
|
Research Products
(2 results)