研究課題/領域番号 |
20H04141
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分60010:情報学基礎論関連
|
研究機関 | 東京医科歯科大学 |
研究代表者 |
坂内 英夫 東京医科歯科大学, M&Dデータ科学センター, 教授 (20323644)
|
研究分担者 |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
関 新之助 電気通信大学, 大学院情報理工学研究科, 准教授 (30624944)
稲永 俊介 九州大学, システム情報科学研究院, 准教授 (60448404)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,550千円 (直接経費: 13,500千円、間接経費: 4,050千円)
2023年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2022年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
2021年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2020年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
|
キーワード | 辞書式順序 / 繰り返し構造 / BWT / Lyndon語 / Lyndon 語 / 辞書式圧縮 / 双方向マクロスキーム / 文字列アトラクタ / 直線的プログラム / 全単射 BWT / Thue-Morse 文字列 / 繰り返し指標 / Lyndon 木 / 原始平方 |
研究開始時の研究の概要 |
近年,情報通信・計測機器の発達により,多岐にわたる分野で膨大な量の文字列データが生み出され,利用可能となっている.このような大規模な文字列データを効率的に処理・解析する技術は多様な応用があるため広く必要とされ,極めて重要である.多様な文字列データに対して有効かつ効率的な処理・解析アルゴリズムを開発するには,文字列の様々な特徴に関する理論的・組合せ的性質の深い理解が必要不可欠である.本研究は,文字列の辞書式順序に着目し,その組合せ的性質の解明およびそれらを利用した効率的な文字列処理のアルゴリズムを開発を目指す.
|
研究実績の概要 |
本年度の主な成果は以下のとおりである。1) 文字列に部分列として含まれる最長の Lyndon 語を求める O(n^3) 時間・O(n) 領域のアルゴリズムを提案した。また、文字列の各接頭辞に対して順にこれを計算するオンラインな設定において、O(n^3σ) 時間・領域のアルゴリズムを提案した。ここで、σ はアルファベットサイズである。また、更に問題を拡張し、二つの文字列に共通して部分列として含まれる最長の Lyndon 語を計算する O(n^4σ) 時間・O(n^3) 領域のアルゴリズムを示した。これらの成果は国際会議 33rd International Workshop on Combinatorial Algorithms (IWOCA 2022) にて発表し、ベストペーパー賞を受賞した。2) 辞書式圧縮に関連する文字列の圧縮性指標のうち、計算が NP-困難であることが知られている最小文字列アトラクタのサイズ γ、最小双方向マクロスキームのサイズ b、及び最小の直線的プログラム(Straight Line Program)のサイズ g それぞれについて、MAX-SAT 問題に帰着し、MAX-SAT ソルバを利用することで、ある程度大きな文字列についても現実的な時間で厳密な値が計算できることを示し、これらの値を計算する初めての非自明な実装を提案した。また、この実装を利用することで γ の圧縮感度の下界を 2 から 2.5 に改善する文字列のクラスを発見した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
コロナ禍においても徐々に出張ができるようになり、対面でのディスカッション等で共同研究に取り組めるようになって来ている。取り組んだ課題で良い成果が得られており、順調と考えられる。
|
今後の研究の推進方策 |
引き続き課題として挙げている問題に取り組むとともに、新しい課題についても適宜開拓してく。
|