2018 年度実施状況報告書

高階圧縮実用化に向けた基盤技術開発

研究課題

研究課題/領域番号	18K11149
研究機関	北海道大学
研究代表者	喜田拓也北海道大学, 情報科学研究科, 准教授 (70343316)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	高階圧縮 / ラムダ計算 / 文法圧縮 / 大規模データ / 透過的データ圧縮法
研究実績の概要	本研究の目的は，高階圧縮と呼ばれるデータ圧縮方式の効率よい処理アルゴリズムを開発することである．ここで「効率よい」とは，次の三つの観点において優れていることである．第一には，データをどれだけコンパクトに表現できるかという圧縮率の観点である．第二には，処理時間とメモリ消費量をどれだけ抑えられるかという計算量の観点である．第三には，圧縮後のデータ自体が，後の情報検索やデータ解析の際にどのくらい利用しやすいかというデータ活用の観点である．既存の高階圧縮の圧縮処理アルゴリズムは処理速度に一番の難点がある．高速に圧縮処理を行うためには，入力データから共通する部分構造をすばやく見つけ出し，ラムダ式として抽出しなければならない．既存手法では，まず入力データを直線状の木構造に変換し，その後，頻出するすべての可能な部分木を探索して，ラムダ計算の逆計算にあたる操作によって木構造をコンパクトにまとめていくという手順を取る．この手法の問題点は，探索すべき部分木の種類が組み合わせ的に増大してしまうことである．申請者らはこれまでに，入力データの繰り返し部分がチャーチ数と呼ばれるラムダ式の整数表現として出現することに着目し，その変換を効率よく行うことで高速に対応するラムダ式を抽出するアルゴリズムを開発している．本年度は，このアルゴリズムの理論的解析を推し進め，その成果をとりまとめた．また一方で，高階圧縮のサブクラスともいえる文法圧縮について研究の進展があった．既存の文法圧縮法であるRePairに対して，理論的に優れた文法を生成することのできる手法MR-RePairの開発に成功した．MR-RePairは，特に繰り返しの多いデータに対して優れた性能を発揮する．人工データおよび実データによる実験を行った結果，RePairに対して最大でおよそ２倍の圧縮性能を達成することを確認することができた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由高階圧縮においては，繰り返し部分のラムダ式抽出アルゴリズムについて理論的解析の成果をとりまとめ雑誌論文として投稿を行ったが，未だ採択に至っていない．しかしながら，一方で，文法圧縮について目覚ましい進展があり，データ圧縮分野における著名な国際会議であるData Compression Conference (DCC2019)にレギュラー論文として採択された．これらのことを鑑み，おおむね順調に進展していると結論付けた次第である．
今後の研究の推進方策	本年度，成果の上がった文法圧縮に関してさらに研究を押し進める．具体的には，MR-RePairが生成する文法のサイズが最小文法サイズに比べてどの程度の近似解になっているかの理論的解析を行う．また，一般にはNP困難であると知られている最小文法生成アルゴリズムについて調査を行い，より精度の高い近似アルゴリズムもしくは現実的なデータサイズに対して実行可能な効率よい最初文法生成アルゴリズムの開発に挑戦する．また，高階圧縮に関しては，文法圧縮を介した再圧縮アルゴリズムの開発に取り組む．

研究成果
(4件)

すべて 2019 2018

すべて学会発表 (4件) (うち国際学会 1件)

[学会発表] MR-RePair: Grammar Compression Based on Maximal Repeats2019
- 著者名/発表者名
  Isamu Furuya, Takuya Takagi, Yuto Nakashima, Shunsuke Inenaga, Hideo Bannai, and Takuya Kida
- 学会等名
  Data Compression Conference (DCC2019)
- 国際学会
[学会発表] 極大反復部分文字列に基づく文法圧縮2019
- 著者名/発表者名
  古谷勇，髙木拓也，中島祐人，稲永俊介，坂内英夫，喜田拓也
- 学会等名
  第171回アルゴリズム研究会
[学会発表] データストリームに対する効率良い頻出アイテム発見アルゴリズム2019
- 著者名/発表者名
  鳥谷部直弥，喜田拓也
- 学会等名
  第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019)
[学会発表] データストリームに対する頻出値問題を解くアルゴリズムの実証実験2018
- 著者名/発表者名
  鳥谷部直弥，谷陽太，喜田拓也
- 学会等名
  第17回情報科学フォーラム (FIT2018)

2018 年度 実施状況報告書

高階圧縮実用化に向けた基盤技術開発

研究代表者

喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)

現在までの達成度 (区分)

理由

研究成果

[学会発表] MR-RePair: Grammar Compression Based on Maximal Repeats2019

著者名/発表者名

学会等名

[学会発表] 極大反復部分文字列に基づく文法圧縮2019

著者名/発表者名

学会等名

[学会発表] データストリームに対する効率良い頻出アイテム発見アルゴリズム2019

著者名/発表者名

学会等名

[学会発表] データストリームに対する頻出値問題を解くアルゴリズムの実証実験2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

喜田拓也北海道大学, 情報科学研究科, 准教授 (70343316)