• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Data Compression: theoretical and practical approaches to the smallest grammar problem

Research Project

Project/Area Number 21K11745
Research InstitutionTohoku University

Principal Investigator

篠原 歩  東北大学, 情報科学研究科, 教授 (00226151)

Project Period (FY) 2021-04-01 – 2025-03-31
Keywordsデータ圧縮 / 文字列処理 / 機械学習 / 文法推論 / 質問学習
Outline of Annual Research Achievements

本研究は,可逆的データ圧縮の代表例である文法圧縮に対して,理論と応用の両面から取り組んでいる.今年度は関連する文字列処理に関して様々な進展があった.文字の置換を許容して構造の一致を見つけ出すパラメータ化パターン照合問題に関して2つのアプローチを行った.まず,検索を高速化するために,有向非巡回文字列グラフ(DAWG)を拡張した索引構造を新たに提案し,それをテキストから効率よく構築するアルゴリズムを開発した.このアルゴリズムはテキストの末尾に文字を付加した場合にも索引の更新が容易なオンライン型となっている.またこの索引構造を活用することで,検索の対象となるパターンの前後に新たな文字列を付加した場合にその変更に追随しながら効率よくパラメータ化照合ができることを示した.第2のアプローチとして,可逆的データ圧縮で重要な働きをするBurrow-Wheeler変換(BW変換)について,パラメータ化に拡張したBW変換を効率よく行えるアルゴリズムを開発した.このアルゴリズムもオンライン型である.さらに,パラメータ化照合や順序保存照合を含む,より一般化した枠組みにおいて,高速に検索を行うことのできる汎用の並列照合アルゴリズムを開発することに成功した.
一方,通常の文字列照合に用いられる索引構造であるポジションヒープに関して,索引構造から元の文字列を復元する「逆問題」の解析に取り組んだ.索引構造に文字ラベルや頂点番号がすべて付与されている場合だけではなく,それらが隠蔽された種々の設定においても,効率よく復元が行えることを示した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

最小文法問題とは,入力として与えられた文字列のみを生成する文脈自由文法の中で最もサイズの小さいものを探す組合せ最適化問題である.この問題に対する様々な近似アルゴリズムが提案されており,高性能なデータ圧縮法の技術基盤となっている.今年度は,研究実績の概要欄に述べたとおり,文字列処理の効率化の部分で大きな進展があった.特にパラメータ化照合を対象とした索引構造やBW変換に関して様々な知見を得ることができた.またパラメータ化を含む,より汎用の枠組みの中で,パターン照合に対する新たな並列処理アルゴリズムを開発することができた.これらは効率のよいデータ処理を実装するために有用である.また実データに対するデータ圧縮に関して,同種のデータが多数ある場合に役立ちそうなアプローチをいくつか検討中であり,プロトタイプを実装して予備実験を行っている段階である.一方,組合せ最適化問題としての最小文法問題の計算量解析については,引き続き文献調査を継続している.

Strategy for Future Research Activity

今年度の成果を足がかりとして,さらなる研究を展開していく予定である.高階文法や確率文法を含めた文法圧縮の実装上の効率化については,その鍵となる文字列処理についてさらに幅広く深く調査を進める予定である.またパラメータ化照合をデータ圧縮にうまく活用する方法を模索しながら,実装実験を行い,その可能性を探る.
また,形式言語理論の枠組みの中でデータ圧縮を文法推論として捉え,与えられたデータからそこに内在する文法や有限オートマトンとして推測する学習理論についても再考する.帰納推論や質問学習などの設定で,実用上の観点からアルファベットサイズの大きな対象を効率よく学習できる手法の開発を目指す.
さらに,文法最小化問題という組合せ最適化問題を,深層強化学習の技術と計算機パワーによって実用的に解くという試みに関しても,引き続き実験を継続していく.深層強化学習については短期間で多種多様な新たな手法が提案されているので,それらをよく調査しながら検討する.ここでは文法をどのように表現するのかが成功への重要な要因となるためさまざまな方法を試行錯誤しているところで,他の組合せ最適化問題に対する適応例を参考にして研究を推進していく予定である.

Causes of Carryover

COVID-19 の影響で出張が当初予定してたよりも少なかった.次年度の出張旅費に充当する予定である.

  • Research Products

    (6 results)

All 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (5 results) (of which Int'l Joint Research: 3 results)

  • [Journal Article] Parameterized DAWGs: Efficient constructions and bidirectional pattern searches2022

    • Author(s)
      Nakashima Katsuhito、Fujisato Noriki、Hendrian Diptarama、Nakashima Yuto、Yoshinaka Ryo、Inenaga Shunsuke、Bannai Hideo、Shinohara Ayumi、Takeda Masayuki
    • Journal Title

      Theoretical Computer Science

      Volume: 933 Pages: 21~42

    • DOI

      10.1016/j.tcs.2022.09.008

    • Peer Reviewed
  • [Presentation] Inferring Strings from Position Heaps in Linear Time2023

    • Author(s)
      Kumagai Koshiro、Hendrian Diptarama、Yoshinaka Ryo、Shinohara Ayumi
    • Organizer
      The 17th International Conference and Workshops on Algorithms and Computation 2023 (WALCOM2023)
    • Int'l Joint Research
  • [Presentation] ネックレス文字列上の極小単出現と極大反復出現の計算2023

    • Author(s)
      森竹 涼樹,熊谷 滉士郎,ディプタラマ ヘンリアン,吉仲 亮,篠原 歩
    • Organizer
      冬のLAシンポジウム
  • [Presentation] EMOW型ポジションヒープの逆問題2023

    • Author(s)
      熊谷 滉士郎,ディプタラマ ヘンリアン,吉仲 亮,篠原 歩
    • Organizer
      冬のLAシンポジウム
  • [Presentation] Computing the Parameterized Burrows-Wheeler Transform Online2022

    • Author(s)
      Hashimoto Daiki, Hendrian Diptarama, Koeppl Dominik, Yoshinaka Ryo, Shinohara Ayumi
    • Organizer
      The 29th International Symposium on String Processing and Information Retrieval 2022 (SPIRE2022)
    • Int'l Joint Research
  • [Presentation] Parallel Algorithm for Pattern Matching Problems Under Substring Consistent Equivalence Relations2022

    • Author(s)
      Jargalsaikhan Davaajav, Hendrian Diptarama, Yoshinaka Ryo, Shinohara Ayumi
    • Organizer
      The 33rd Annual Symposium on Combinatorial Pattern Matching (CPM 2022)
    • Int'l Joint Research

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi