2003 Fiscal Year Annual Research Report
構造化ウェブデータからの並列分散データマイニングシステム
Project/Area Number |
14580423
|
Research Institution | Kyushu University |
Principal Investigator |
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
宮原 哲浩 広島市立大学, 情報科学部, 助教授 (90209932)
丸山 修 九州大学, 大学院・数理学研究院, 助教授 (20282519)
|
Keywords | 機械学習 / データマイニング / 並列アルゴリズム / 半構造データ / 木構造データ / グラフ構造 / 帰納推論 / 質問学習 |
Research Abstract |
構造化ウェブデータ,特にHTML/XMLなどの半構造データは木構造データとみなすことができる.本研究では,ウェブデータを順序木データとして扱い,そのデータから有益な知識を抽出するための実時間動作可能なデータマイニングシステムの開発を目標とする.本年度は,この目標を達成するために,基本アルゴリズムの並列化と,表現力のある木構造パターンの設計とその学習理論の研究を行い,以下の結果を得た. (1)順序木構造パターン照合のための効率の良い並列アルゴリズムを与えた.順序木データから,データ固有のパターンを抽出するためには,パターンと順序木データの照合を何度も繰り返す必要がある.したがって,パターン照合アルゴリズムのスピードはシステム全体のスピードを左右する.そこで,我々は,並列アルゴリズムの理論に基づき,順序木構造パターンと順序木との照合を行う効率の良い並列アルゴリズムを与えた.このアルゴリズムは入力サイズの多項式個のプロセッサを用いて,対数多項式時間でパターン照合を行う. (2)表現力のある順序木構造パターンを提案し,そのパターンの多項式時間機械学習可能性を示した.我々がこれまでに提案した順序項木は構造的な内部変数をもつ順序木構造パターンである.変数には空でない任意の順序木を代入することができる.我々は既に順序項木言語のいくつかのクラスが多項式時間機械学習可能であることを示した.本年度は,ウェブデータ中の誤りや冗長な記述を吸収し,全体としてバランスのとれたパターン表現を得るために,縮約可能変数と呼ばれる空代入を許す変数を導入した.そして,縮約可能変数付き順序木言語のいくつかのクラスが多項式時間機械学習可能であることを示した(ILP03とALT03で発表). さらに,以上のアルゴリズムを実装したプロトタイプを作成し,実際のウェブデータに対してデータマイニングの実験を行い,実時間動作可能であることを確認した.
|
Research Products
(6 results)
-
[Publications] T.Miyahara et al.: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc.Pacific-Asia Conf.Knowledge Discovery and Data Mining, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2637. 430-436 (2003)
-
[Publications] Y.Itokawa et al.: "Finding Frequent Subgraphs from Graph Structured Data with Geometric Information and Its Application to Lossless Compression"Proc.Pacific-Asia Conf.Knowledge Discovery and Data Mining, Lecture Notes in Artificial Intelligence, Springer-Verlag. 2637. 582-594 (2003)
-
[Publications] Y.Suzuki et al.: "Efficient Learning of Unlabeled Term Trees with Contractible Variables from Positive Data"Proc.Inductive Logic Programming (ILP03), Lecture Notes in Artificial Intelligence, Springer-Verlag. 2835. 347-364 (2003)
-
[Publications] K.Yamagata et al.: "An Effective Grammar-Based Compression Algorithm for Tree Structured Data"Proc.Inductive Logic Programming (ILP03), Lecture Notes in Artificial Intelligence, Springer-Verlag. 2835. 383-400 (2003)
-
[Publications] Y.Suzuki et al.: "Efficient Learning of Ordered and Unordered Tree Patterns with Contractible Variables"Proc.Algorithmic Learning Theory (ALT03), Lecture Notes in Artificial Intelligence, Springer-Verlag. 2842. 114-128 (2003)
-
[Publications] S.Matsumoto et al.: "Learning of Finite Unions of Tree Patterns with Repeated Internal Structured Variables from Queries"Proc.Algorithmic Learning Theory (ALT03), Lecture Notes in Artificial Intelligence, Springer-Verlag. 2842. 144-158 (2003)