2002 Fiscal Year Annual Research Report
構造化データから知識を発見するデータマイニングシステム
Project/Area Number |
13680459
|
Research Institution | Hiroshima City University |
Principal Investigator |
宮原 哲浩 広島市立大学, 情報科学部, 助教授 (90209932)
|
Co-Investigator(Kenkyū-buntansha) |
久保山 哲二 東京大学, 国際産学共同研究センター, 助手 (80302660)
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
|
Keywords | データマイニング / 知識発見 / グラフ構造データ / 半構造データ / 木構造パターン / HTML / XMLファイル |
Research Abstract |
本研究課題では,構造化データから知識を発見するデータマイニングシステムについて研究を行い次の成果を得た.本課題の目的は,グラフ構造や木構造を持っデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである.本研究の目的の一つは,HTML/XMLファイルのような木構造を持つWeb文書から知識を発見することである.このようなWeb文書は,半構造データと呼ばれており,半構造Web文書から,意味がある知識を抽出するためには,まず,それらを特徴付ける木構造パターンを発見することが必要である. 順序項木は,辺ラベルを持つ順序木構造と構造的変数を持つ木構造パターンであり,変数には任意の木を代入することができる.よって,順序項木は,木構造データに共通する構造的パターンを表現するのに適している.順序項木言語の学習アルゴリズムを利用して,与えられた木構造データに共通な構造的パターンを抽出する手法を開発し,本研究課題の目標とするシステムの基本的データマイニング手法とすることができる.そのため,順序項木言語の学習可能性を調べた. タグ木パターンとは,辺ラベルを持つ順序木で,タグの木構造と構造的変数を持つ.辺ラベルはタグかキーワードかワイルドカードであり,変数には任意の木を代入することができる.特に,縮約可能変数は,1頂点だけから成る木を含む,任意の木とマッチする.よって,タグ木パターンは,不定形な半構造データに共通する構造的パターンを表現するのに適している.本研究課題の目標とするシステムの基本的データマイニング手法とするため,タグ木パターンの抽出法を調べた.与えられたデータを説明する極小に一般化されたタグ木パターンをみつけるアルゴリズムを用いて,不定形な半構造データから特徴的なタグ木パターンを抽出する方法が有効であることがわかった.
|
Research Products
(6 results)
-
[Publications] Yusuke Suzuki: "Polynomial Time Inductive Inference of Ordered Tree Patterns with Internal Structured Variables from Positive Data"Proc. COLT02, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2375. 169-184 (2002)
-
[Publications] Yusuke Suzuki: "Ordered Term Tree Languages Which Are Polynomial Time Inductively Inferable from Positive Data"Proc. ALT02, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2533. 188-202 (2002)
-
[Publications] Satoshi Matsumoto: "Learning of Finite Unions of Tree Patterns with Internal Structured Variables from Queries"Proc.A102, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2557. 523-534 (2002)
-
[Publications] Yusuke Suzuki: "A Polynomial Time Matching Algorithm of Structured Ordered Tree Patterns for Data Mining from Semistructured Data"Proc. ILP02, Lecture Notes in Artificial Intefligence, Springer-Verlag. 2583. 270-284 (2002)
-
[Publications] Tetsuhiro Miyahara: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc. PAKDD03, Lecture Notes in Artificial Intelligence, Springer-Verlag. (発表予定). (2003)
-
[Publications] Yuko Itokawa: "Finding Frequent Subgraphs from Graph Structured Data with Geometric Information and Its Application to Lossless Compression"Proc. PAKDD03, Lecture Notes in Artificial Intelligence, Springer-Verlag. (発表予定). (2003)