研究課題/領域番号 |
20H04141
|
研究機関 | 東京医科歯科大学 |
研究代表者 |
坂内 英夫 東京医科歯科大学, M&Dデータ科学センター, 教授 (20323644)
|
研究分担者 |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
関 新之助 電気通信大学, 大学院情報理工学研究科, 准教授 (30624944)
稲永 俊介 九州大学, システム情報科学研究院, 准教授 (60448404)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 全単射 BWT / 辞書式圧縮 / 双方向マクロスキーム / Thue-Morse 文字列 / 繰り返し指標 |
研究実績の概要 |
本年度の主な成果は以下の通りである。1) 任意の文字列に対して全単射 Burrows-Wheeler 変換 (Bijective BWT) を計算する初の線形時間アルゴリズムを提案した。 2) 文法圧縮アルゴリズム GCIS に基づく、線形時間で構築可能な圧縮索引構造を提案した。GCIS が局所性を持つこと、すなわち文字列の任意の出現において文法上の構造が同じである「コア」が存在することを示し、本索引を用いて長さ m のパターン文字列の occ 個のすべての出現をO(m log S + k log S log n+occ) 時間で求めることができる。ここで、n はテキスト文字列の長さ、S は文法のサイズ、k は文法の生成規則中のパターンのコアの出現回数を表す。3) Thue-Morse 語という文字列のクラスに対し、辞書式圧縮において最も表現力の高い双方向マクロスキームのサイズについて精密な解析を行い、n 番目の Thue-Morse 語 t(n) の最小双方向マクロスキームのサイズ b は、n ≧ 2 に対して n +2 であることを示した。この結果とt(n) の最小文字列アトラクタサイズ γ がn ≧ 4 に対して 4 であるという昨年度得られた成果とを合わせることにより、最小アトラクタサイズと最小双方向マクロスキームサイズが分離されること、すなわち、最小アトラクタサイズは辞書式圧縮の下界であるが、下限ではなく、辞書式圧縮の表現力では最小アトラクタサイズまでは圧縮できない場合があることを初めて示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度と同様にコロナウィルスの感染拡大により、国際会議等における研究ディスカッションや共同研究の打ち合わせなどが想定より制限された面もあるが、取り組んだ課題で 一定の成果が得られているため、順調と考えられる。
|
今後の研究の推進方策 |
引き続き課題として挙げている問題に取り組むとともに、新しい課題についても適宜開拓してく。
|