研究課題/領域番号 |
20H04141
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分60010:情報学基礎論関連
|
研究機関 | 東京医科歯科大学 |
研究代表者 |
坂内 英夫 東京医科歯科大学, M&Dデータ科学センター, 教授 (20323644)
|
研究分担者 |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
関 新之助 電気通信大学, 大学院情報理工学研究科, 准教授 (30624944)
稲永 俊介 九州大学, システム情報科学研究院, 教授 (60448404)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
17,550千円 (直接経費: 13,500千円、間接経費: 4,050千円)
2023年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2022年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
2021年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2020年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
|
キーワード | Lyndon 語 / Lyndon 配列 / 辞書式圧縮 / FM-index / 辞書式順序 / 繰り返し構造 / BWT / Lyndon語 / 双方向マクロスキーム / 文字列アトラクタ / 直線的プログラム / 全単射 BWT / Thue-Morse 文字列 / 繰り返し指標 / Lyndon 木 / 原始平方 |
研究開始時の研究の概要 |
近年,情報通信・計測機器の発達により,多岐にわたる分野で膨大な量の文字列データが生み出され,利用可能となっている.このような大規模な文字列データを効率的に処理・解析する技術は多様な応用があるため広く必要とされ,極めて重要である.多様な文字列データに対して有効かつ効率的な処理・解析アルゴリズムを開発するには,文字列の様々な特徴に関する理論的・組合せ的性質の深い理解が必要不可欠である.本研究は,文字列の辞書式順序に着目し,その組合せ的性質の解明およびそれらを利用した効率的な文字列処理のアルゴリズムを開発を目指す.
|
研究実績の概要 |
本年度の主な成果は以下のとおりである。 1) 入力文字列長 n, アルファベットサイズσ とする時、入力の表現長 n log σ ビットに対して計算機のワード長 log n ビットを定数時間で処理できることを利用し、文字列の各位置から始まる最長 Lyndon 語の長さ、すなわち文字列のLyndon 木・配列の表現をO(n logσ/log n) の劣線形時間で計算できるアルゴリズムを示した。2) 最小 LZ-End 圧縮問題、最小連長圧縮 SLP (RLSP) 問題および最小コラージュシステム問題の3つの辞書式圧縮の問題がNP 完全であることを示した。また、LZ-End と RLSLP については MAX-SAT による定式化を示し、高速なMAX-SAT ソルバを利用することである程度の長さの文字列について現実的な時間で計算できることを示した。3) 与えられた文字列に部分列として含まれる最長の Lyndon 語を求める問題に関し、文字列の各接頭辞に対して順にこれを計算するオンラインな設定において、昨年度得られていたO(n^3σ) 時間・領域のアルゴリズムをO(n^3) 時間・領域に改善できることを示した。4) Prefix-free parsing を FM-index に組み入れる手法を提案した。Prefix-free parsing で文字列をフレーズに分割し、その性質を利用することでフレーズ単位の検索を行うことが可能となり、従来法と比べてデータ構造のサイズをさほど大きくすることなく、特に長い検索クエリを高速化できることを示した。
|
現在までの達成度 (段落) |
令和5年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和5年度が最終年度であるため、記入しない。
|