• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

半構造化データに対する文字列処理の高速化に関する研究

Research Project

Project/Area Number 14780224
Research InstitutionHokkaido University

Principal Investigator

喜田 拓也  北海道大学, 大学院・情報科学研究科, 助教授 (70343316)

Keywords文字列照合 / 半構造化データ / HTML, XML / データ圧縮 / Pattern Matching / String Processing / 文法変換に基づく圧縮 / オントロジー
Research Abstract

WWW上で広く用いられているHTMLファイルは,タグを単位とした木構造を内部表現に持つ半構造化データである.ポストHTMLとして登場し,今日ではアプリケーション間のデータ交換のための共通形式として注目を浴びているXMLファイルも同様の半構造化データである.
これまで半構造化データに対する文字列処理といえば,一度テキストから木構造を抽出し,それを土台にしてタグの要素であるテキストに対して形態素解析を行ったり,部分文字列やN-gramを切り出したりした後に索引構造を構築し,それを用いて文字列照合などの処理を行うのが主であった.しかしながら,この方法では索引構造を構築するために時間がかかるうえ,元データの変更毎に再構築する必要がある.
本研究では,索引構造を用いずに半構造化データに対しそのまま文字列処理をする手法の開発が目的である.そのために,半構造化データに対して必要とされる文字列照合操作を明らかにし,各操作についてより高速なアルゴリズムを開発する.例えば,半構造化データに対する検索要求としては,ある特定の階層構造の下にあるデータのみを対象とした文字列照合を行ったり,XMLファイル中の特殊な名前を持つタグを探し出したりすることが考えられる.このような照合操作の実現は,タグやデータの高速な置換処理や,大規模テキストからの高速なデータマイニング等への応用につながる.
本年度は,半構造データに対する文字列照合に適したデータ圧縮法の枠組みの一つである文法変換に基づくデータ圧縮法について取り組み,理論的に少スペースかつ線形時間でデータを圧縮する手法を提案した.また,半構造化データに対する文字列処理の一つの応用として,オントロジーを考慮した文字列処理という新しい問題について取り組み,各種オントロジーデータのうち分類階層データを考慮した文字列照合についてのアルゴリズムを開発した.

  • Research Products

    (3 results)

All 2005 2004

All Journal Article (3 results)

  • [Journal Article] データストリームのためのマイニング技術2005

    • Author(s)
      有村博紀, 喜田拓也
    • Journal Title

      特集「データマイニング技術」,情報処理(鈴木英之進, 鹿島久嗣(編)) Vol.46(1)

      Pages: 4-11

  • [Journal Article] Pattern Matching with Taxonomic Information2004

    • Author(s)
      T.Kida, H.Arimura
    • Journal Title

      Proceedings of Asia Information Retrieval Symposium (AIRS2004)

      Pages: 265-268

  • [Journal Article] A Space-Saving Linear-Time Algorithm for Grammar-Based Compression2004

    • Author(s)
      H.Sakamoto, T.Kida, S.Shimozono
    • Journal Title

      Proceedings of the 11th Symposium on String Processing and Information Retrieval (SPIRE2004) LNCS3246

      Pages: 218-229

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi