研究概要 |
平成24年度前半は,圧縮されていない文書集合の中に頻出する文字列パターンを高速に列挙する手法を開発した.提案手法は既存手法を内包する様々な同値関係における飽和パターンの列挙を可能にし,また,文字列処理の技術を援用してアルゴリズムの高速化を実現している.その成果をまとめた論文は,European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases(ECML-PKDD 2012)に採択され発表を行った.また,国内ではERATO湊離散構造処理系プロジェクト「2012年度初夏のワークショップ」にて発表を行っている. 平成24年度後半は,文法圧縮された文字列上で効率的に畳込み計算を行う手法を開発した.文字列の畳込みは,不一致を許す文字列照合やドントケア文字を含む文字列集合など様々な近似文字列照合に応用出来る重要な技術であり,本研究の成果は,文法圧縮を用いる事で畳込み計算の高速化を可能にするという画期的なものである.本研究成果をまとめた論文は,Data Compression Conference(DCC2013)に採択され発表を行った. その他,接尾辞が束ねられた文字列集合に対してポジションヒープと呼ばれる索引構造を効率的に構築するアルゴリズムや,連長圧縮を用いてLempel-Ziv78分解を高速に計算するアルゴリズムなどを提案している.
|