研究課題/領域番号 |
18K11149
|
研究機関 | 北海道大学 |
研究代表者 |
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 高階圧縮 / ラムダ計算 / 文法圧縮 / 大規模データ / 透過的データ圧縮法 |
研究実績の概要 |
本研究の目的は,高階圧縮と呼ばれるデータ圧縮方式の効率よい処理アルゴリズムを開発することである.ここで「効率よい」とは,次の三つの観点において優れていることである.第一には,データをどれだけコンパクトに表現できるかという圧縮率の観点である.第二には,処理時間とメモリ消費量をどれだけ抑えられるかという計算量の観点である.第三には,圧縮後のデータ自体が,後の情報検索やデータ解析の際にどのくらい利用しやすいかというデータ活用の観点である.
既存の高階圧縮の圧縮処理アルゴリズムは処理速度に一番の難点がある.高速に圧縮処理を行うためには,入力データから共通する部分構造をすばやく見つけ出し,ラムダ式として抽出しなければならない.既存手法では,まず入力データを直線状の木構造に変換し,その後,頻出するすべての可能な部分木を探索して,ラムダ計算の逆計算にあたる操作によって木構造をコンパクトにまとめていくという手順を取る.この手法の問題点は,探索すべき部分木の種類が組み合わせ的に増大してしまうことである.
申請者らはこれまでに,入力データの繰り返し部分がチャーチ数と呼ばれるラムダ式の整数表現として出現することに着目し,その変換を効率よく行うことで高速に対応するラムダ式を抽出するアルゴリズムを開発している.本年度は,このアルゴリズムの理論的解析を推し進め,その成果をとりまとめた.また一方で,高階圧縮のサブクラスともいえる文法圧縮について研究の進展があった.既存の文法圧縮法であるRePairに対して,理論的に優れた文法を生成することのできる手法MR-RePairの開発に成功した.MR-RePairは,特に繰り返しの多いデータに対して優れた性能を発揮する.人工データおよび実データによる実験を行った結果,RePairに対して最大でおよそ2倍の圧縮性能を達成することを確認することができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
高階圧縮においては,繰り返し部分のラムダ式抽出アルゴリズムについて理論的解析の成果をとりまとめ雑誌論文として投稿を行ったが,未だ採択に至っていない.しかしながら,一方で,文法圧縮について目覚ましい進展があり,データ圧縮分野における著名な国際会議であるData Compression Conference (DCC2019)にレギュラー論文として採択された.これらのことを鑑み,おおむね順調に進展していると結論付けた次第である.
|
今後の研究の推進方策 |
本年度,成果の上がった文法圧縮に関してさらに研究を押し進める.具体的には,MR-RePairが生成する文法のサイズが最小文法サイズに比べてどの程度の近似解になっているかの理論的解析を行う.また,一般にはNP困難であると知られている最小文法生成アルゴリズムについて調査を行い,より精度の高い近似アルゴリズムもしくは現実的なデータサイズに対して実行可能な効率よい最初文法生成アルゴリズムの開発に挑戦する.また,高階圧縮に関しては,文法圧縮を介した再圧縮アルゴリズムの開発に取り組む.
|