2002 Fiscal Year Annual Research Report
構造化ウェブデータからの並列分散データマイニングシステム
Project/Area Number |
14580423
|
Research Institution | Kyushu University |
Principal Investigator |
正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
宮原 哲浩 広島市立大学, 情報科学部, 助教授 (90209932)
丸山 修 九州大学, 大学院・数理学研究院, 助教授 (20282519)
|
Keywords | 知識発見 / データマイニング / 多項式時間学習可能 / 正データからの帰納推論 / 質問学習 / 厳密学習 / データマイニングプロセス / 仮説クラスアトラス |
Research Abstract |
近年,高速なネットワークの発達を背景に,ウェブページに代表される構造化テキストテータの利用が急速に進みつつある.本研究では,ウェブデータなどの構造化データに対して,それらの機能や構造を説明する規則やパターンをグラフや木で表現するために,機械学習理論に基づいて,パターンの発見や照合などを行うための効率の良いアルゴリズムの設計とその計算量理論的な評価を行う.さらに,実際にXML/HTMLデータなどを対象に構造化データからの高速なデータマイニングシステムの開発を行う.これらのことを目標に,本年は次の結果を得た. (1)活発に研究されているグラフ構造データのひとつにXML/HTMLデータなどの木構造データがある.木構造データから有用な知識を発見するために,我々は順序項木と呼ばれる木構造パターンを提案した.順序項木は順序木の内部にいくつもの変数を持ち,その変数はサイズ可変である.本年はこの順序項木の効率的な学習可能性を,学習理論の代表的な2つのモデルである帰納推論と質問学習を用いて論じ,順序項木に現れる個々の変数のサイズが任意である場合には正データからの多項式時間帰納推論可能であること,個々の変数のサイズが2である場合で無限個のラベルを持つ場合は多項式時間質問学習可能であることを示した. (2)与えられたデータに現れる特徴をうまく表現するために様々な知識表現が提案されている.ニューラルネットやSVMはその代表的なものである.一方でどの知識表現が与えられたデータに適しているかを判断する基準は十分に与えられていない.我々は知識表現間の相対的な表現力をデータに依存しないように有向グラフ(仮説クラスアトラス)で描く方法を提案し,与えられたデータに適した知識表現を効率良く見出す方向づけを行った.
|
Research Products
(6 results)
-
[Publications] S.Matsumoto, T.Shoudai, T.Miyahara, T.Uchida: "Learning of Finite Unions of Tree Patterns with Internal Structured Variables from Queries"Proc.Australian Joint Conference on Artificial Intelligence 2002, Lecture Notes in Artificial Intelligence. 2557. 523-534 (2002)
-
[Publications] Y.Suzuki, T.Shoudai, T.Miyahara, T.Uchida: "Ordered Term Tree Languages Which Are Polynomial Time Inductively Inferable from Positive Data"Proc.Algorithmic Learning Theory 2002, Lecture Notes in Artificial Intelligence. 2533. 188-202 (2002)
-
[Publications] O.Maruyama, T.Shoudai, S.Miyano: "Toward Drawing an Atlas of Hypothesis Classes"Proc.Discovery Science 2002, Lecture Notes in Artificial Intelligence. 2534. 220-232 (2002)
-
[Publications] Y.Suzuki, R.Akanuma, T.Shoudai, T.Miyahara, T.Uchida: "Polynomial Time Inductive Inference of Ordered Tree Patterns with Internal Structured Variables from Positive Data"Proc.Computational Learning Theory 2002, Lecture Notes in Artificial Intelligence. 2375. 169-184 (2002)
-
[Publications] T.Miyahara, Y.Suzuki, T.Shoudai, T.Uchida, K.Takahashi, H.Ueda: "Discovery of Frequent Tag Tree Patterns in Semistructured Web Documents"Proc.Pacific-Asia Conference, PAKDD 2002, Lecture Notes in Artificial Intelligence. 2336. 341-355 (2002)
-
[Publications] K.Furukawa, T.Uchida, K.Yamada, T.Miyahara, T.Shoudai, Y.Nakamura: "Extracting Characteristic Structures among Words in Semistructured Documents"Proc.Pacific-Asia Conference, PAKDD 2002, Lecture Notes in Artificial Intelligence. 2336. 356-367 (2002)