最先端文字列アルゴリズム理論に基づく巨大データ解析技法
Project/Area Number |
20J11983
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Review Section |
Basic Section 60010:Theory of informatics-related
|
Research Institution | Hokkaido University (2021) Kyushu University (2020) |
Principal Investigator |
三重野 琢也 北海道大学, 情報科学研究院, 博士研究員
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2021: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2020: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 文字列アルゴリズム / 回文 / 文字列圧縮 |
Outline of Research at the Start |
本研究では,文字列データ処理のあらゆる問題について劣線形 (sublinear) 領域のデータ構造を考案・実装することで,巨大な入力データに対して実用的なデータ処理手法を提案する.特に,文字列中に一度しか出現しない部分文字列 (unique substring) について着目し,その組合せ的性質を利用した省領域なデータ構造を考案する.さらに,文字列構造に対する最先端の理論を応用することで,大規模かつ非定型なデータを対象とした新たな知識発見基盤を開発する.
|
Outline of Annual Research Achievements |
前から読んでも後ろから読んでも同じ文字列を回文という。文字列から回文構造を発見する問題は特に生物情報科学の分野で重要視され、盛んに研究されている。 本研究期間においては、文字列中の回文構造を効率よく検出するためのデータ構造・アルゴリズムの開発を主として行った。他にも文字列圧縮アルゴリズムの性能に関する研究などを行い、以下の6つの成果を得た。 1つ目の成果は、入力文字列に対して特定の編集操作が許された設定において、ユニーク回文部分文字列を計算するアルゴリズムの提案である。ユニーク回文部分文字列とは、文字列中にちょうど一度だけ出現する回文である。本成果は国際会議 SPIRE 2021 に採択されており、さらにその結果を応用した研究成果は国際会議 IWOCA 2022 に投稿された。 2つ目の成果は、双方向マクロスキームと呼ばれる文字列圧縮形式に対する圧縮性能限界の解明である。3つ目の成果は、LZEnd 圧縮と呼ばれる文字列圧縮手法の圧縮性能に関する新たな結果の証明である。文字列圧縮手法の性能を比較・解析する研究は文字列圧縮研究の分野で近年盛んに行われており、特に2つ目の成果は同分野で注目されていた未解決問題のひとつを解決したものである。2つ目と3つ目の成果は国際会議 SPIRE 2021 に採択されている。 4つ目の成果は、RePair という文字列圧縮手法の圧縮性能に関する新たな結果の証明である。5つ目の成果は、デカルト木部分列照合問題と呼ばれる緩和された部分列照合問題に対するアルゴリズムの提案である。6つ目の成果は、圧縮表現された文字列上で、その文字列中に存在しない不在文字列を計算するアルゴリズムの提案である。上記3つの成果はいずれも国際会議 CPM 2022 に採択されている。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(11 results)