• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

BW変換技術の深化による大規模データ処理基盤技術の開発

Research Project

Project/Area Number 19K20213
Research InstitutionKyushu Institute of Technology

Principal Investigator

井 智弘  九州工業大学, 大学院情報工学研究院, 准教授 (20773360)

Project Period (FY) 2019-04-01 – 2024-03-31
KeywordsBW変換 / 圧縮索引 / 一般化文字列照合
Outline of Annual Research Achievements

BW変換は文字列中の各文字をその後ろに続く文字列(文脈)によってソートして得られる可逆変換である.それ自体では,文字を並べ替えただけなので圧縮になっていないが,文脈が似通っている文字を隣接する位置に配置することで同じ文字が連続しやすくなるため,連長圧縮などの単純な手法で圧縮することが可能となる.特に,高度反復文字列に対して,BW変換文字列の連長圧縮サイズは非常に小さくなり,データによっては数百分の一のサイズまで大幅に圧縮可能であることが知られている.BW変換は単に圧縮の前処理に止まらず,様々な文字列処理に応用されている.例えば,FerraginaとManziniはBW変換文字列を索引構造のように使えることを示し,文字列を簡潔な領域で保持しながら効率的なパターン照合機能を提供する簡潔データ構造FM-indexを提案した.FM-indexはテキスト中でパタン文字列と完全に一致する部分文字列の位置を検索できるが,完全一致の照合問題を一般化した照合に対してはそのまま使うことはできない.近年,パラメタ化文字列照合に対するFM-indexをはじめとして,様々な一般化文字列照合に対するFM-indexが盛んに研究されている.本年度は,パラメタ化文字列照合に対するFM-indexを効率的に省スペースで構築する問題に取り組んだ.パラメタ化文字列照合に対する索引はFM-indexベースのもの以外にも様々提案されており,それらを効率的に構築する手法も広く研究されているが,最も省スペースな索引であるFM-indexベースの索引を省スペースで構築する手法はこれまで提案されていなかった.本研究では,この問題に内在する技術的な課題を解決し,パラメタ化文字列照合に対するFM-indexベースの索引を省スペースで構築する初の手法を提案した.

  • Research Products

    (7 results)

All 2024 2023

All Journal Article (5 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 5 results,  Open Access: 4 results) Presentation (2 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] On the Hardness of Smallest RLSLPs and Collage Systems2024

    • Author(s)
      Akiyoshi Kawamoto, Tomohiro I, Dominik Koeppl, Hideo Bannai
    • Journal Title

      Proc. Data Compression Conference (DCC) 2024

      Volume: - Pages: 243-252

    • Peer Reviewed
  • [Journal Article] Breaking a Barrier in Constructing Compact Indexes for Parameterized Pattern Matching2024

    • Author(s)
      Kento Iseri, Tomohiro I, Diptarama Hendrian, Dominik Koeppl, Ryo Yoshinaka, Ayumi Shinohara
    • Journal Title

      Proc. 51st International Colloquium on Automata, Languages, and Programming (ICALP) 2024

      Volume: - Pages: -

    • Peer Reviewed / Open Access
  • [Journal Article] Longest bordered and periodic subsequences2023

    • Author(s)
      Hideo Bannai, Tomohiro I, Dominik Koeppl
    • Journal Title

      Information Processing Letters

      Volume: 182 Pages: 106398~106398

    • DOI

      10.1016/j.ipl.2023.106398

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Computing Longest Lyndon Subsequences and Longest Common Lyndon Subsequences2023

    • Author(s)
      Hideo Bannai, Tomohiro I, Tomasz Kociumaka, Dominik Koeppl, Simon J. Puglisi
    • Journal Title

      Algorithmica

      Volume: 86 Pages: 735~756

    • DOI

      10.1007/s00453-023-01125-z

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] PalFM-index: FM-index for Palindrome Pattern Matching2023

    • Author(s)
      Shinya Nagashita, Tomohiro I
    • Journal Title

      Proc. 34th Annual Symposium on Combinatorial Pattern Matching (CPM) 2023

      Volume: - Pages: 23:1-23:15

    • DOI

      10.4230/LIPIcs.CPM.2023.23

    • Peer Reviewed / Open Access
  • [Presentation] On the Hardness of Smallest RLSLPs and Collage Systems2024

    • Author(s)
      Akiyoshi Kawamoto, Tomohiro I, Dominik Koeppl, Hideo Bannai
    • Organizer
      Data Compression Conference (DCC) 2024
    • Int'l Joint Research
  • [Presentation] PalFM-index: FM-index for Palindrome Pattern Matching2023

    • Author(s)
      Shinya Nagashita and Tomohiro I
    • Organizer
      34th Annual Symposium on Combinatorial Pattern Matching (CPM) 2023
    • Int'l Joint Research

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi