• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2002 Fiscal Year Annual Research Report

構造化データから知識を発見するデータマイニングシステム

Research Project

Project/Area Number 13680459
Research InstitutionHiroshima City University

Principal Investigator

宮原 哲浩  広島市立大学, 情報科学部, 助教授 (90209932)

Co-Investigator(Kenkyū-buntansha) 久保山 哲二  東京大学, 国際産学共同研究センター, 助手 (80302660)
正代 隆義  九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
内田 智之  広島市立大学, 情報科学部, 助教授 (70264934)
Keywordsデータマイニング / 知識発見 / グラフ構造データ / 半構造データ / 木構造パターン / HTML / XMLファイル
Research Abstract

本研究課題では,構造化データから知識を発見するデータマイニングシステムについて研究を行い次の成果を得た.本課題の目的は,グラフ構造や木構造を持っデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである.本研究の目的の一つは,HTML/XMLファイルのような木構造を持つWeb文書から知識を発見することである.このようなWeb文書は,半構造データと呼ばれており,半構造Web文書から,意味がある知識を抽出するためには,まず,それらを特徴付ける木構造パターンを発見することが必要である.
順序項木は,辺ラベルを持つ順序木構造と構造的変数を持つ木構造パターンであり,変数には任意の木を代入することができる.よって,順序項木は,木構造データに共通する構造的パターンを表現するのに適している.順序項木言語の学習アルゴリズムを利用して,与えられた木構造データに共通な構造的パターンを抽出する手法を開発し,本研究課題の目標とするシステムの基本的データマイニング手法とすることができる.そのため,順序項木言語の学習可能性を調べた.
タグ木パターンとは,辺ラベルを持つ順序木で,タグの木構造と構造的変数を持つ.辺ラベルはタグかキーワードかワイルドカードであり,変数には任意の木を代入することができる.特に,縮約可能変数は,1頂点だけから成る木を含む,任意の木とマッチする.よって,タグ木パターンは,不定形な半構造データに共通する構造的パターンを表現するのに適している.本研究課題の目標とするシステムの基本的データマイニング手法とするため,タグ木パターンの抽出法を調べた.与えられたデータを説明する極小に一般化されたタグ木パターンをみつけるアルゴリズムを用いて,不定形な半構造データから特徴的なタグ木パターンを抽出する方法が有効であることがわかった.

  • Research Products

    (6 results)

All Other

All Publications (6 results)

  • [Publications] Yusuke Suzuki: "Polynomial Time Inductive Inference of Ordered Tree Patterns with Internal Structured Variables from Positive Data"Proc. COLT02, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2375. 169-184 (2002)

  • [Publications] Yusuke Suzuki: "Ordered Term Tree Languages Which Are Polynomial Time Inductively Inferable from Positive Data"Proc. ALT02, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2533. 188-202 (2002)

  • [Publications] Satoshi Matsumoto: "Learning of Finite Unions of Tree Patterns with Internal Structured Variables from Queries"Proc.A102, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2557. 523-534 (2002)

  • [Publications] Yusuke Suzuki: "A Polynomial Time Matching Algorithm of Structured Ordered Tree Patterns for Data Mining from Semistructured Data"Proc. ILP02, Lecture Notes in Artificial Intefligence, Springer-Verlag. 2583. 270-284 (2002)

  • [Publications] Tetsuhiro Miyahara: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc. PAKDD03, Lecture Notes in Artificial Intelligence, Springer-Verlag. (発表予定). (2003)

  • [Publications] Yuko Itokawa: "Finding Frequent Subgraphs from Graph Structured Data with Geometric Information and Its Application to Lossless Compression"Proc. PAKDD03, Lecture Notes in Artificial Intelligence, Springer-Verlag. (発表予定). (2003)

URL: 

Published: 2004-04-07   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi