2001 Fiscal Year Annual Research Report
構造化データから知識を発見するデータマイニングシステム
Project/Area Number |
13680459
|
Research Institution | Hiroshima City University |
Principal Investigator |
宮原 哲浩 広島市立大学, 情報科学部, 助教授 (90209932)
|
Co-Investigator(Kenkyū-buntansha) |
久保山 哲二 東京大学, 国際産学共同研究センター, 助手 (80302660)
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
|
Keywords | データマイニング / 知識発見 / グラフ構造データ / 半構造データ / 木構造パターン / XMLファイル / 帰納推論 |
Research Abstract |
本研究課題では,構造化データから知識を発見するデータマイニングシステムについて研究を行い,次の成果を得た.本課題の目的は,グラフ構造や木構造を持つデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである. インターネットの発展に伴い,Web文書も急速に増大している.本研究の目的の一つは,XMLファイルのような木構造を持つWeb文書から知識を発見することである.このようなWeb文書は,半構造データと呼ばれており,半構造データからのデータマイニングやテキストマイニングが注目を集めている.半構造Web文書から,意味がある知識を抽出するためには,まず,それらに頻出する木構造パターンを発見することが必要である.正事例とみなされる木構造データの構造的特徴を表すために,極大頻出タグ木パターンという木構造パターンを提案した.半構造データを非順序木とみなす場合と,順序木とみなす場合の両方について,極大頻出タグ木パターンをすべて生成するアルゴリズムを提案した.この発見アルゴリズムを実現し,その有効性を確認した. 半構造データのテキスト部分に出現する単語とその出現する構造に注目して,頻出する語間構造パターンを生成するアルゴリズムを提案し,実現した. 半構造データからのデータマイニングの理論的基礎を与えるため,非順序項木という木構造パターンが表現する言語の学習可能性を調べて,次の結果を得た.非順序項木の極小言語は多項式時間で求めることができる.また,非順序項木が作る言語は,正データから多項式時間帰納推論可能である.
|
Research Products
(4 results)
-
[Publications] Tetsuhiro Miyahara: "Discovery of Frequent Tree Structured Patterns in Semistructured Web Documents"Lecture Notes in Artificial Intelligence, Springer-verlag. 2035. 47-52 (2001)
-
[Publications] Takayoshi Shoudai: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Science, Springer-verlag. 2138. 335-346 (2001)
-
[Publications] Tetsuhiro Miyahara: "Discovery of Frequent Tag Tree Patterns in Semistructured Web Documents"Lecture Notes in Artificial Intelligence, Springer-verlag. 2336. (2002)
-
[Publications] Kazuyoshi Furukawa: "Extracting Characteristic Structures among Words in Semistructured Documents"Lecture Notes in Artificial Intelligence, Springer-verlag. 2336. (2002)