2012 Fiscal Year Annual Research Report
圧縮文字列上の高速パターン列挙に関する基盤技術開発
Project/Area Number |
12J06417
|
Research Institution | Kyushu University |
Principal Investigator |
井 智弘 九州大学, 大学院・システム情報科学研究院, 特別研究員(PD)
|
Keywords | 文字列パターン列挙 / 圧縮文字列処理 |
Research Abstract |
平成24年度前半は,圧縮されていない文書集合の中に頻出する文字列パターンを高速に列挙する手法を開発した.提案手法は既存手法を内包する様々な同値関係における飽和パターンの列挙を可能にし,また,文字列処理の技術を援用してアルゴリズムの高速化を実現している.その成果をまとめた論文は,European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases(ECML-PKDD 2012)に採択され発表を行った.また,国内ではERATO湊離散構造処理系プロジェクト「2012年度初夏のワークショップ」にて発表を行っている. 平成24年度後半は,文法圧縮された文字列上で効率的に畳込み計算を行う手法を開発した.文字列の畳込みは,不一致を許す文字列照合やドントケア文字を含む文字列集合など様々な近似文字列照合に応用出来る重要な技術であり,本研究の成果は,文法圧縮を用いる事で畳込み計算の高速化を可能にするという画期的なものである.本研究成果をまとめた論文は,Data Compression Conference(DCC2013)に採択され発表を行った. その他,接尾辞が束ねられた文字列集合に対してポジションヒープと呼ばれる索引構造を効率的に構築するアルゴリズムや,連長圧縮を用いてLempel-Ziv78分解を高速に計算するアルゴリズムなどを提案している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の研究で,文書集合中の頻出文字列パターン列挙と,文法圧縮された文字列上で近似文字列照合を効率的に行う手法に関する知見が得られた.これらは,本研究課題が目指す「圧縮文字列上で動作する列挙アルゴリズム」の基盤技術になると考えられる.
|
Strategy for Future Research Activity |
文法圧縮された文字列上で繰り返し構造や回文などの特徴的な文字列を高速に列挙する手法の開発を行う.また,文法圧縮された文字列上でLyndon分解を効率的に計算する手法の開発を行う.
|
Research Products
(13 results)
-
-
-
-
-
-
[Journal Article] The position heap of a trie2012
Author(s)
Yuto Nakashima, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, Masayuki Takeda
-
Journal Title
In Proceedings of the 19th Symposium on String Processing and Information Retrieval
Volume: LNCS 7608
Pages: 360-371
DOI
Peer Reviewed
-
-
-
[Presentation] The position heap of a trie2012
Author(s)
Yuto Nakashima, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, Masayuki Takeda
Organizer
Synposiun on String Processing and Information Retrieval (SPIRE 2012)
Place of Presentation
コロンビア, カルタヘナ
Year and Date
2012-10-23
-
-
-
-