• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

超高速データストリームのためのオンライン型半構造情報変換システムの開発

Research Project

Project/Area Number 16650021
Research InstitutionHokkaido University

Principal Investigator

有村 博紀  北海道大学, 大学院・情報科学研究科, 教授 (20222763)

Co-Investigator(Kenkyū-buntansha) 坂本 比呂志  九州工業大学, 情報工学部, 助教授 (50315123)
KeywordsXML / 半構造データ / XPath / 情報検索 / ストリーム / 文法圧縮 / 圧縮索引 / SAX
Research Abstract

平成16年度は,次のように研究を行った.
1.半構造データストリーム変換の定式化:インターネットにおける現在の半構造データストリームの利用形態を分析し,オンライン型半構造情報変換システムに必要な半構造データ処理機能を洗い出し,Xquey pathパターンの部分族であるXmatch言語を設計した(有村・坂本).また,半構造データに対する圧縮法や索引に必要な機能の洗い出しもおこなった(坂本).
2.ストリーム指向半構造パターン変換技術の開発:このXmatch言語を対象に,テキストの一方向逐次走査に基づくパターン照合技法に基づいたXmatchシステムを開発した.これにより,データストリームを左から右へ一方向逐次走査しながら,与えられたXPathパターンの出現を検出し,変換テンプレートを用いたオンライン再構成を行なう高速な軽量パターン変換を実現した.また,このために,ASAX (Alternative SAX)と呼ぶ,新しいXMLテキスト走査技術を開発した.結果として,実際の大規模XMLデータをもちいた従来の主記憶にデータ木を展開するタイプのXpath処理系に対して10数倍以上の高速化と著しい記憶効率の改善を得た.さらに,ASAX技術の導入により,同種のストリーム指向Xpathパターン照合システム(XSQ)に対しても2倍から4倍程度の高速化を達成した.本技術はその独自性と有効性を高く評価され,本グループによる和文発表の第一著者が情報処理学会山下記念研究賞をH16年11月に受賞した(有村).
3.最適化技術を用いた高効率圧縮アルゴリズムの開発:最適圧縮率に対して,理論的に性能評価をもつ線形時間文法圧縮アルゴリズムを開発した.この種の圧縮アルゴリズムは,Sequiturアルゴリズム等,半構造データからの情報抽出や圧縮と密接な関係をもつ.また,半構造データに対する検索可能な圧縮索引についても成果を得た(坂本).

  • Research Products

    (6 results)

All 2005 2004

All Journal Article (6 results)

  • [Journal Article] データストリームのためのマイニング技術2005

    • Author(s)
      有村博紀, 喜田拓也
    • Journal Title

      情報処理, 情報処理学会 46・1

      Pages: 4-11

  • [Journal Article] 大規模データストリームのためのマイニング技術の動向2005

    • Author(s)
      有村博紀
    • Journal Title

      電子情報通信学会論文誌 J88-D-I・2(印刷中)

  • [Journal Article] Efficient Substructure Discovery from Large Semi-structured Data2004

    • Author(s)
      H.Arimura, H.Sakamoto他4名
    • Journal Title

      IEICE Transactions on Information and Systems E87-D・12

      Pages: 2754-2763

  • [Journal Article] WWWからの情報抽出-ウェブラッパーの自動構築-2004

    • Author(s)
      有村博紀, 坂本比呂志他2名
    • Journal Title

      人工知能学会誌 19・3

      Pages: 302-310

  • [Journal Article] An Efficient Algorithm for Enumerating Closed Patterns in Transaction Databases2004

    • Author(s)
      H.Arimura他3名
    • Journal Title

      Proc.the 7th International Conference on Discovery Science (DS'04) LNAI3245

      Pages: 16-30

  • [Journal Article] A Space-Saving Linear-Time Algorithm for Grammar-Based Compression2004

    • Author(s)
      H.Sakamoto他2名
    • Journal Title

      Proc.11^<th> International Symposium on String Processing and Information Retrieval (SPIRE 2004) LNCS

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi