2003 Fiscal Year Annual Research Report
半構造化データに対する文字列処理の高速化に関する研究
Project/Area Number |
14780224
|
Research Institution | Kyushu University |
Principal Investigator |
喜田 拓也 九州大学, 附属図書館, 講師 (70343316)
|
Keywords | 文字列照合 / 半構造化データ / HTML,XML / VLDCパタン / Pattern Matching / String Processing / Hamming Distance / データ圧縮 |
Research Abstract |
WWW上で広く用いられているHTMLファイルは,タグを単位とした木構造を内部表現に持つ半構造化データである.ポストHTMLとして登場し,今日ではアプリケーション間のデータ交換のための共通形式として注目を浴びているXMLファイルも同様の半構造化データである. これまで半構造化データに対する文字列処理といえば,一度テキストから木構造を抽出し,それを土台にしてタグの要素であるテキストに対しで形態素解析を行ったり,部分文字列やN-gramを切り出したりした後に索引構造を構築し,それを用いて文字列照合などの処理を行うのが主であった.しかしながら,この方法では索引構造を構築するために時間がかかるうえ,元データの変更毎に再構築する必要がある. 本研究では,索引構造を用いずに半構造化データに対しそのまま文字列処理をする手法の開発が目的である.そのために,半構造化データに対して必要とされる文字列照合操作を明らかにし,各操作についてより高速なアルゴリズムを開発する.例えば,半構造化データに対する検索要求としては,ある特定の階層構造の下にあるデータのみを対象とした文字列照合を行ったり,XMLファイル中の特殊な名前を持つタグを探し出したりすることが考えられる.このような照合操作の実現は,タグやデータの高速な置換処理や,大規模テキストからの高速なデータマイニング等への応用につながる. 本年度は,より複雑な文字列パタンを扱える文字列照合アルゴリズムについて取り組んだ。任意の記号と一致するメタ記号をパタン中に含んだVariable Length Don't Care(VLDC)パタンは、上述したXMLデータなどに対する文字列照合の有益なツールとなりうる。このVLDCパタンに対して数文字分の不一致を許した近似文字列照合アルゴリズムを開発し、従来の方法との速度比較実験を行った。その結果、およそ4倍以上の高速化を達成した。
|
Research Products
(1 results)