研究課題/領域番号 |
19K20213
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分60010:情報学基礎論関連
|
研究機関 | 九州工業大学 |
研究代表者 |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | BW変換 / 圧縮索引 / 一般化文字列照合 / 圧縮変換 / 圧縮文字列処理 / データ圧縮 / 圧縮情報処理 / 文法圧縮 / Burrows-Wheeler変換 |
研究開始時の研究の概要 |
Burrows-Wheeler変換(BW変換)は1994年に圧縮のためのデータ変換手法として提案された.BW変換は,後にデータ処理において様々な利点を有していることが判明し,近年も多くの重要な発見がされている.本研究では,BW変換をデータ処理に適した表現への変換技術と位置付け,その根底にあるアイデアを徹底的に追求することで,大規模データ解析の基盤技術を開発する.
|
研究実績の概要 |
BW変換は文字列中の各文字をその後ろに続く文字列(文脈)によってソートして得られる可逆変換である.それ自体では,文字を並べ替えただけなので圧縮になっていないが,文脈が似通っている文字を隣接する位置に配置することで同じ文字が連続しやすくなるため,連長圧縮などの単純な手法で圧縮することが可能となる.特に,高度反復文字列に対して,BW変換文字列の連長圧縮サイズは非常に小さくなり,データによっては数百分の一のサイズまで大幅に圧縮可能であることが知られている.BW変換は単に圧縮の前処理に止まらず,様々な文字列処理に応用されている.例えば,FerraginaとManziniはBW変換文字列を索引構造のように使えることを示し,文字列を簡潔な領域で保持しながら効率的なパターン照合機能を提供する簡潔データ構造FM-indexを提案した.FM-indexはテキスト中でパタン文字列と完全に一致する部分文字列の位置を検索できるが,完全一致の照合問題を一般化した照合に対してはそのまま使うことはできない.近年,パラメタ化文字列照合に対するFM-indexをはじめとして,様々な一般化文字列照合に対するFM-indexが盛んに研究されている.本年度は,パラメタ化文字列照合に対するFM-indexを効率的に省スペースで構築する問題に取り組んだ.パラメタ化文字列照合に対する索引はFM-indexベースのもの以外にも様々提案されており,それらを効率的に構築する手法も広く研究されているが,最も省スペースな索引であるFM-indexベースの索引を省スペースで構築する手法はこれまで提案されていなかった.本研究では,この問題に内在する技術的な課題を解決し,パラメタ化文字列照合に対するFM-indexベースの索引を省スペースで構築する初の手法を提案した.
|