2004 年度実績報告書

構造化ウェブデータからの並列分散データマイニングシステム

研究課題

研究課題/領域番号	14580423
研究機関	九州大学
研究代表者	正代隆義九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
研究分担者	丸山修九州大学, 大学院・数理学研究院, 助教授 (20282519) 宮原哲浩広島市立大学, 情報科学部, 助教授 (90209932) 内田智之広島市立大学, 情報科学部, 助教授 (70264934)
キーワード	データマイニング / 機械学習 / 帰納推論 / 木構造データ / ウェブマイニング / メタサーチ
研究概要	本研究課題の目的は,HTMLやXMLファイルなどのウェブデータから知識発見を行う分散型計算環境に適したデータマイニングシステムの実現と,そのシステムの理論的基礎となる木構造パターンの機械学習理論の構築である.この目的を達成するため,平成16年度は,ウェブデータの特性を生かした知識発見を行うことを目標に研究を行い,次の結果を得た. 半構造ウェブデータから意味がある知識を抽出するためには,まず,それらに頻出する木構造パターンを発見することが必要である.平成15年度までの研究で,我々は,柔軟性に富む木構造パターンとして項木(term tree)を提案し,帰納学習あるいは例からの概念学習とよばれる基礎的研究を行ってきた.項木は,いくつかの構造的変数と辺ラベルを持つ木構造からなるパターンであり,変数にはあらかじめ定められた条件を満たす非順序木または順序木を代入することができる.一方,ウェブデータを木構造データとみなすとき,多くの場合,その木の高さはその木の幅と比較し大きくならない.そこで,平成16年度では,木の高さの情報をウェブデータの特徴として抽出することのできる構造的変数(高さ制約変数とよぶ)を定義し,与えられたウェブデータの高さのパターンを抽出するために計算論的学習理論に基づく多項式時間学習アルゴリズムを提案した. 最後に,本年度までに構築した項木の機械学習理論の有効性を確認するため,提案した学習アルゴリズムをエンジンとするメタサーチシステムを開発した.このメタサーチシステムは,タグやキーワードの意味を考慮せず,木の構造だけからデータの重要箇所を切り出すためのアルゴリズム(ラッパーとよぶ)を自動で生成する機能を持つ.このメタサーチシステムによりインターネット上に分散した複数の検索サイトの統合が実現できることを確認した.以上が,本年度の研究成果の概要である.

研究成果
(4件)

すべて 2004

すべて雑誌論文 (4件)

[雑誌論文] Discovery of Maximally Frequent Tag Tree Patterns with Contractible Variables from Semistructured Documents2004
- 著者名/発表者名
  Tetsuhiro Miyahara et al.
- 雑誌名
  
  Proc. 8th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Springer-Verlag, LNAI 3056
  
  ページ: 133-144
[雑誌論文] Polynomial Time Inductive Inference of Ordered Tree Languages with Height-Constrained Variables from Positive Data2004
- 著者名/発表者名
  Yusuke Suzuki et al.
- 雑誌名
  
  Proc. 8th Pacific Rim International Conference on Artificial Intelligence, Springer-Verlag, LNAI 3157
  
  ページ: 211-220
[雑誌論文] Learning of Ordered Tree Languages with Height-Bounded Variables Using Queries2004
- 著者名/発表者名
  Satoshi Matsumoto, Takayoshi Shoudai
- 雑誌名
  
  Proc. 15th Workshop on Algorithmic Learning Theory, Springer-Verlag, LNAI 3244
  
  ページ: 425-439
[雑誌論文] Automatic Wrapper Generation for Metasearch using Ordered Tree Structured Patterns2004
- 著者名/発表者名
  Kazuhide Aikou et al.
- 雑誌名
  
  Proc. 17th Australian Joint Conference on Artificial Intelligence, Springer-Verlag, LNAI 3339
  
  ページ: 1030-1035

2004 年度 実績報告書

構造化ウェブデータからの並列分散データマイニングシステム

研究代表者

正代 隆義 九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)

研究成果

[雑誌論文] Discovery of Maximally Frequent Tag Tree Patterns with Contractible Variables from Semistructured Documents2004

著者名/発表者名

雑誌名

[雑誌論文] Polynomial Time Inductive Inference of Ordered Tree Languages with Height-Constrained Variables from Positive Data2004

著者名/発表者名

雑誌名

[雑誌論文] Learning of Ordered Tree Languages with Height-Bounded Variables Using Queries2004

著者名/発表者名

雑誌名

[雑誌論文] Automatic Wrapper Generation for Metasearch using Ordered Tree Structured Patterns2004

著者名/発表者名

雑誌名

2004 年度実績報告書

正代隆義九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)