研究課題
BW変換は文字列中の各文字をその後ろに続く文字列(文脈)によってソートして得られる可逆変換である.それ自体では,文字を並べ替えただけなので圧縮になっていないが,文脈が似通っている文字を隣接する位置に配置することで同じ文字が連続しやすくなるため,連長圧縮などの単純な手法で圧縮することが可能となる.特に,高度反復文字列に対して,BW変換文字列の連長圧縮サイズは非常に小さくなり,データによっては数百分の一のサイズまで大幅に圧縮可能であることが知られている.BW変換は単に圧縮の前処理に止まらず,様々な文字列処理に応用されている.例えば,FerraginaとManziniはBW変換文字列を索引構造のように使えることを示し,文字列を簡潔な領域で保持しながら効率的なパターン照合機能を提供する簡潔データ構造FM-indexを提案した.FM-indexはテキスト中でパタン文字列と完全に一致する部分文字列の位置を検索できるが,完全一致の照合問題を一般化した照合に対してはそのまま使うことはできない.近年,パラメタ化文字列照合に対するFM-indexをはじめとして,様々な一般化文字列照合に対するFM-indexが盛んに研究されている.本年度は,回文構造の一致に基づいた一般化文字列照合に対するFM-indexを提案し,成果をまとめた論文はAnnual Symposium on Combinatorial Pattern Matching 2023に投稿し採択された.この結果は,FM-index的な索引構造を設計するために必要な条件を明らかにするための一助になると考えられる.
2: おおむね順調に進展している
研究課題に対して成果が得られている.
引き続き一般化文字列照合に対するFM-indexの設計手法について研究を進める.
年度前半はまだコロナ禍の影響が残っており,旅費の使用が少なかったため.2023年度は渡航制限などが解消され,問題なく使用できると考える.
すべて 2023 2022
すべて 雑誌論文 (4件) (うち国際共著 2件、 査読あり 4件、 オープンアクセス 2件) 学会発表 (3件) (うち国際学会 3件)
Information Processing Letters
巻: 182 ページ: 106398~106398
10.1016/j.ipl.2023.106398
Proc. 34th Annual Symposium on Combinatorial Pattern Matching (CPM) 2023
巻: - ページ: 23:1-23:15
10.4230/LIPIcs.CPM.2023.23
Proc. 33rd International Workshop on Combinatorial Algorithms (IWOCA) 2022
巻: - ページ: 327-340
10.1007/978-3-031-06678-8_24
巻: - ページ: 128-142
10.1007/978-3-031-06678-8_10