• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

木の編集距離による近似パタン発見と半構造データからの情報抽出

Research Project

Project/Area Number 17700138
Research InstitutionThe University of Tokyo

Principal Investigator

久保山 哲二  東京大学, 国際・産学共同研究センター, 助手 (80302660)

Keywords木の編集距離 / 木の近似照合 / q-gram / 木のアラインメント / 半構造データ
Research Abstract

XML文書やHTML文書などの半構造データをはじめとする木構造を、比較・統合するための手法は、これまでに数多く提案されている。しかし、今までに提案されてきたこれらの手法は、具体的な適用領域を意識して開発されてきたものがほとんどである。今年度の研究では、木構造本来の性質に由来する普遍的な性質により特徴づけできる部分と、応用分野に特化した部分を切り分け、木構造の数学的性質から導き出される重要な性質に基づいた木構造の比較・統合のための基礎理論を構築した。
木構造を比較する手法として最も一般的な木の編集距離に着目し、さまざまなタイプの編集距離尺度を統一的に記述するための代数的なフレームワークを提案した。この過程で、2つの木を1つに統合するための代数的な必要十分条件を示すことができた。また、これらの理論的なフレームワークを用いて、部分構造の数え上げに基づく新たな木の類似性尺度を提案した。さらにこの類似尺度が、学習器のためのカーネル関数に適用できることを示した。
木の編集距離は比較的計算コストの高い手法であるため、木の編集距離を高速に近似する手法として木のq-gramを開発した。この手法は、q-gramというノード数qのパスからなる木を考え、この部分木がいくつ木構造に含まれているかという情報を元に、木構造間の距離を測る手法である。
また、応用として、同種の情報を含むHTML文書などの半構造データ群から、属性名とコンテンツを抽出し、属性ごとに整列する手法を提案した。本手法は、半構造データの近似マッチング手法を用い、同一テンプレートから人手による編集により作成されたHTMLの文法間違い等を含む文書にも対応した柔軟な手法である。本手法を、大学のシラバスページに適用することにより、十分高い精度で、メタデータの抽出とデータの整列ができることを示した。

  • Research Products

    (3 results)

All 2005

All Journal Article (3 results)

  • [Journal Article] A Theoretical Analysis of Tree Edit Distance Measures2005

    • Author(s)
      T.kuboyama, K.Shin, T.Iiyahara
    • Journal Title

      情報処理学会論文誌:数理モデル化と応用(TOM13) 46・17

      Pages: 31-45

  • [Journal Article] A Theoretical Analysis of Alignment and Edit Problems for Trees2005

    • Author(s)
      T.Kuboyama, K.Shin, T.Miyahara, H.Yasuda
    • Journal Title

      Proc. Theoretical Computer Science, 9th Italian Conference, Lecture Notes in Computer Science 3701

      Pages: 323-337

  • [Journal Article] The q-Gram Distance for Ordered Unlabeled Trees2005

    • Author(s)
      N.Ohkura, K.Hirata, T.Kuboyama, M.Harao
    • Journal Title

      Proc. 8th International Conference on Discovery Science (DS2005). Lecture Notes in Artificial Intelligence 3735

      Pages: 189-202

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi