2012 Fiscal Year Research-status Report
データ圧縮に基づく高速パラメタ化文字列照合技法の開発
Project/Area Number |
23700022
|
Research Institution | Kyushu University |
Principal Investigator |
稲永 俊介 九州大学, システム情報科学研究科(研究院, 准教授 (60448404)
|
Keywords | アルゴリズム / 文字列処理 / データ圧縮 |
Research Abstract |
文字列とは,記号の連鎖のことである.コンピュータ上で取り扱うデータの多くは,文字列とみなすことができる.そのため,文字列データを高速かつ省領域で処理する基盤技術の開発は,情報爆発時代における喫緊の課題となっている. 近年,爆発的に増加した非構造データの集まりを俗にビッグデータと呼ぶようになり,ビッグデータの省領域な格納方法,および有効な活用方法の開発に注目が集まっている.本研究では,データに内在する冗長性を削除し,データの記述長を短縮するデータ圧縮技術を活用する.特に,直線的プログラム(Straight Line Program, SLP)と呼ばれる,単一の文字列のみを導出するチョムスキー標準形の文脈自由文法でデータを圧縮表現する方法に着目した.SLP のサイズを n としたとき,展開文字列長が n に対して指数的に大きくなる場合が存在する.したがって,入力 SLP を陽に展開することなく,様々な処理を n の多項式時間で行うアルゴリズムは,大規模データの省領域な格納と,高速な検索・知識発見に有用である. 今年度は主に,以下の高度な処理を入力 SLP サイズ n の多項式時間で行う手法を開発した.(1) SLP 圧縮文字列が反復文字列(squares)を含むかどうかの判定,(2) SLP 圧縮文字列から LZ78 分解への変換,(3) SLP 圧縮文字列と非圧縮パターンの畳み込みの計算,(4) SLP 圧縮文字列中の全 q グラムの出現頻度の計算.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
H23年度は,回文照合問題という新たな問題を提案し,それを最適時間で解くアルゴリズムを開発した.また,パラメタ化文字列照合との密接な関係性を明らかにした.また,H24年度には,研究実績の概要の欄でも述べたとおり,SLP で圧縮表現された文字列に対して,様々な処理を高速かつ省領域で行う技術の開発に立て続けに成功しており,当初の計画を上回るものとなっている.
|
Strategy for Future Research Activity |
今後は,研究実績の概要で述べたアルゴリズムのさらなる高速化・省領域化に取り組む.また,より高度な処理を行うことができるように改良を重ねていく予定である.
|
Expenditure Plans for the Next FY Research Funding |
提案手法のさらなる高速化・省領域化の実現ために,当該分野の第一線で活躍する研究者が集う会議に積極的に参加し,最新の研究成果を網羅するとともに,新技術開発のためのディスカッションを行う.このため,国際会議参加や研究打ち合わせを目的として,数度の海外出張を予定している.また,東北大学の共同研究グループとの研究打ち合わせや,国内の会議への参加も積極的に行う予定である.研究成果をまとめるために,計算機や周辺機器の購入も適宜行う予定である.
|
-
[Journal Article] Permuted Pattern Matching on Multi-Track Strings2013
Author(s)
Takashi Katsura, Kazuyuki Narisawa, Ayumi Shinohara, Hideo Bannai, and Shunsuke Inenaga
-
Journal Title
In Proc. The 39th International Conference on Current Trends in Theory and Practice of Computer Science (SOFSEM 2013), Lecture Notes in Computer Science, (Springer-Verlag)
Volume: 7741
Pages: 280-291
DOI
Peer Reviewed
-
-
-
-
-
[Journal Article] The Position Heap of a Trie2012
Author(s)
Yuto Nakashima, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, and Masayuki Takeda
-
Journal Title
In Proc. the 19th Symposium on String Processing and Information Retrieval (SPIRE 2012), Lecture Notes in Computer Science, (Springer-Verlag)
Volume: 7608
Pages: 360-371
DOI
Peer Reviewed
-
-
-
-
-
[Presentation] Permuted Pattern Matching on Multi-Track Strings2013
Author(s)
Takashi Katsura, Kazuyuki Narisawa, Ayumi Shinohara, Hideo Bannai, and Shunsuke Inenaga
Organizer
39th International Conference on Current Trends in Theory and Practice of Computer Science (SOFSEM 2013)
Place of Presentation
Spindleruv Mlyn, Czech Republic
Year and Date
20130126-31
-
[Presentation] The Position Heap of a Trie2012
Author(s)
Yuto Nakashima, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, and Masayuki Takeda
Organizer
19th Symposium on String Processing and Information Retrieval (SPIRE 2012)
Place of Presentation
Cartagena de Indias, Colombia
Year and Date
20121021-20121025
-
-
-
-