2003 Fiscal Year Annual Research Report
構造化データから知識を発見するデータマイニングシステム
Project/Area Number |
13680459
|
Research Institution | Hiroshima City University |
Principal Investigator |
宮原 哲浩 広島市立大学, 情報科学部, 助教授 (90209932)
|
Co-Investigator(Kenkyū-buntansha) |
久保山 哲二 東京大学, 国際産学共同研究センター, 助手 (80302660)
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
|
Keywords | データマイニング / 知識発見 / グラフ構造データ / 半構造データ / 木構造パターン / HTML / XMLファイル |
Research Abstract |
本研究課題では,構造化データから知識を発見するデータマイニングシステムについて研究を行い次の成果を得た.本課題の目的は,グラフ構造や木構造を持つデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである.本研究の目的の一つは,HTML/XMLファィルのような木構造を持つWeb文書または半構造データから知識を発見することである. 順序項木は,辺ラベルを持つ順序木構造と構造的変数を持つ木構造パターンであり,変数には任意の木を代入することができる.順序項木言語の学習アルゴリズムを利用して,与えられた木構造データに共通な構造的パターンを抽出する手法を開発し,本研究課題の目標とするシステムの基本的データマイニング手法とすることができる.そのため,仮説,データ提示および質問に関する様々な設定のもとで,順序項木言語の学習アルゴリズムを与えた. 半構造データから意味がある,興味深い知識を発見するためには,半構造データに特徴的なパターンを抽出することが必要である.タグ木パターンは,辺ラベルとタグの木構造と構造的変数を持つ木構造パターンである.辺ラベルはタグがキーワードかワイルドカードであり,変数は任意の木とマッチすることができる.特に,縮約可能変数は,1頂点だけから成る木を含む,任意の木とマッチする.1頂点だけから成る木は,半構造データにおける欠落フィールドに対応する。半構造データは木構造データとみなせるので,タグ木パターンは,不定形な半構造データに特徴的な構造的パターンを表現するのに適している.極大頻出な縮約可能変数つきタグ木パターンを,与えられた半構造データを説明する特徴的なパターンであるととらえて,子に順序がある場合と無い場合の両方において,このパターンをすべて生成するアルゴリズムを与えた.
|
Research Products
(7 results)
-
[Publications] Yusuke Suzuki: "Efficient Learning of Unlabeled Term Trees with Contractible Variables from Positive Data"Proc.ILP03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2835. 347-364 (2003)
-
[Publications] Kazunori Yamagata: "An Effective Grammar-Based Compression Algorithm for Tree Structured Data"Proc.ILP03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2835. 383-400 (2003)
-
[Publications] Yusuke Suzuki: "Efficient Learning of Ordered and Unordered Tree Patterns with Contractible Variables."Proc.ALT03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2842. 114-128 (2003)
-
[Publications] Satoshi Matsumoto: "Learning of Finite Unions of Tree Patterns with Repeated Internal Structured Variables from Queries"Proc.ALT03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2842. 144-158 (2003)
-
[Publications] Sachio Hirokawa: "Semi-Automatic Construction of Metadata from a Series of Web Documents."Proc.ALT03, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2903. 942-953 (2003)
-
[Publications] Tetsuhiro Miyahara: "Discovery of Maximally Frequent Tag Tree Patterns with Contractible Variables from Semistructured Documents"Proc.PAKDD04, Lecture Notes in Artificial Intelligence, Springer-Verlag. (発表予定). (2004)
-
[Publications] Tomoyuki Uchida: "Finding Frequent Structural Features among Words in Tree-Structured Documents"Proc.PAKDD04, Lecture Notes in Artificial Intelligence, Springer-Verlag. (発表予定). (2004)