研究課題
特別研究員奨励費
本研究では,文字列データ処理のあらゆる問題について劣線形 (sublinear) 領域のデータ構造を考案・実装することで,巨大な入力データに対して実用的なデータ処理手法を提案する.特に,文字列中に一度しか出現しない部分文字列 (unique substring) について着目し,その組合せ的性質を利用した省領域なデータ構造を考案する.さらに,文字列構造に対する最先端の理論を応用することで,大規模かつ非定型なデータを対象とした新たな知識発見基盤を開発する.
前から読んでも後ろから読んでも同じ文字列を回文という。文字列から回文構造を発見する問題は特に生物情報科学の分野で重要視され、盛んに研究されている。本研究期間においては、文字列中の回文構造を効率よく検出するためのデータ構造・アルゴリズムの開発を主として行った。他にも文字列圧縮アルゴリズムの性能に関する研究などを行い、以下の6つの成果を得た。1つ目の成果は、入力文字列に対して特定の編集操作が許された設定において、ユニーク回文部分文字列を計算するアルゴリズムの提案である。ユニーク回文部分文字列とは、文字列中にちょうど一度だけ出現する回文である。本成果は国際会議 SPIRE 2021 に採択されており、さらにその結果を応用した研究成果は国際会議 IWOCA 2022 に投稿された。2つ目の成果は、双方向マクロスキームと呼ばれる文字列圧縮形式に対する圧縮性能限界の解明である。3つ目の成果は、LZEnd 圧縮と呼ばれる文字列圧縮手法の圧縮性能に関する新たな結果の証明である。文字列圧縮手法の性能を比較・解析する研究は文字列圧縮研究の分野で近年盛んに行われており、特に2つ目の成果は同分野で注目されていた未解決問題のひとつを解決したものである。2つ目と3つ目の成果は国際会議 SPIRE 2021 に採択されている。4つ目の成果は、RePair という文字列圧縮手法の圧縮性能に関する新たな結果の証明である。5つ目の成果は、デカルト木部分列照合問題と呼ばれる緩和された部分列照合問題に対するアルゴリズムの提案である。6つ目の成果は、圧縮表現された文字列上で、その文字列中に存在しない不在文字列を計算するアルゴリズムの提案である。上記3つの成果はいずれも国際会議 CPM 2022 に採択されている。
令和3年度が最終年度であるため、記入しない。
すべて 2022 2021 2020
すべて 雑誌論文 (3件) (うち国際共著 1件、 査読あり 3件、 オープンアクセス 2件) 学会発表 (8件) (うち国際学会 8件)
Information Processing Letters
巻: 173 ページ: 106174-106174
10.1016/j.ipl.2021.106174
Algorithmica
巻: 84 号: 3 ページ: 670-693
10.1007/s00453-021-00864-1
Theoretical Computer Science
巻: 845 ページ: 230-242
10.1016/j.tcs.2020.09.017