研究概要 |
WWW上で広く用いられているHTMLファイルは,タグを単位とした木構造を内部表現に持つ半構造化データである.ポストHTMLとして登場し,今日ではアプリケーション間のデータ交換のための共通形式として注目を浴びているXMLファイルも同様の半構造化データである. これまで半構造化データに対する文字列処理といえば,一度テキストから木構造を抽出し,それを土台にしてタグの要素であるテキストに対して形態素解析を行ったり,部分文字列やN-gramを切り出したりした後に索引構造を構築し,それを用いて文字列照合などの処理を行うのが主であった.しかしながら,この方法では索引構造を構築するために時間がかかるうえ,元データの変更毎に再構築する必要がある. 本研究では,索引構造を用いずに半構造化データに対しそのまま文字列処理をする手法の開発が目的である.そのために,半構造化データに対して必要とされる文字列照合操作を明らかにし,各操作についてより高速なアルゴリズムを開発する.例えば,半構造化データに対する検索要求としては,ある特定の階層構造の下にあるデータのみを対象とした文宇列照合を行ったり,XMLファイル中の特殊な名前を持つタグを探し出したりすることが考えられる.このような照合操作の実現は,タグやデータの高速な置換処理や,大規模テキストからの高速なデータマイニング等への応用につながる. 本年度の成果のひとつは,複数文字列照合アルゴリズムとして知られるAho-Corasick照合アルゴリズムを土台とした半構造化データに対する効率的な照合アルゴリズムを開発したことである.このアルゴリズムは,照合の速度を低下することなく,タグ中の文宇列と一致する不適切なキーワードの出現を除外することができる.さらに,ある特定のタグ以下のテキスト中にのみ一致する出現を枚挙することができるように改良を加えた.
|