2004 年度実績報告書

機械学習手法による半構造データマイニングと情報抽出

研究課題

研究課題/領域番号	16016275
研究機関	広島市立大学
研究代表者	宮原哲浩広島市立大学, 情報科学部, 助教授 (90209932)
研究分担者	内田智之広島市立大学, 情報科学部, 助教授 (70264934) 平田耕一九州工業大学, 情報工学部, 助教授 (20274558) 久保山哲二東京大学, 国際産学共同研究センター, 助手 (80302660)
キーワード	機械学習 / 半構造データマイニング / 情報抽出 / 木構造パターン / タグ木パターン
研究概要	本研究課題では,機械学習手法による半構造データマイニングと情報抽出について研究を行い,本年度は次の成果を得た. Web空間の爆発的な発展に伴い,インターネット上の大規模分散コンテンツを流通・提供・活用するための手法やシステムの研究開発が求められている.機械学習技術を適用することは,人に優しい情報通信技術やフレンドリーな情報処理システムの開発に有効である.本研究課題では,HTML/XMLファイルなどのWeb文書が半構造性を持つことに注目し,機械学習技術を活用して,半構造データからのデータマイニング技術を発展させ,Webデータから有用なコンテンツを発見する手法,すなわち情報抽出技術を確立することを目的とする. 半構造データから,意味がある知識や情報を抽出するためには,それらを特徴づける木構造パターンを発見することが必要である.半構造Web文書から特徴的な木構造パターンである,縮約可能変数つきの極大頻出なタグ木パターンをすべて生成する手法を提案した. HTML/XMLで記述された半構造化文書は,内部ノードにタグ情報を,葉にはタグ間にある文章を保持した順序木により表現することができる.半構造化文書における単語間の構造の特徴を抽出するために,単語間の連結経路として単語間連結経路パターンを提案し,頻出する単語間連結経路パターンを抽出するデータマイニング手法を開発した. 半構造データの近似マッチング手法を用いたWebページからの情報抽出手法を提案した.二階一般化および頻出単調DNF式の抽出に関して研究を行った.

研究成果
(8件)

すべて 2004

すべて雑誌論文 (8件)

[雑誌論文] Tractable and Intractable Second-Order Matching Problems2004
- 著者名/発表者名
  Kouichi Hirata
- 雑誌名
  
  Journal of Symbolic Computation Vol.37,No.5
  
  ページ: 611-628
[雑誌論文] Discovery of Maximally Frequent Tag Tree Patterns with Contractible Variables from Semistructured Documents2004
- 著者名/発表者名
  Tetsuhiro Miyahara
- 雑誌名
  
  Proc.PAKDD 2004, Lecture Notes in Artificial Intelligence, Springer-Verlag 3056
  
  ページ: 133-144
[雑誌論文] Polynomial Time Inductive Inference of Ordered Tree Languages with Height-Constrained Variables from Positive Data2004
- 著者名/発表者名
  Yusuke Suzuki
- 雑誌名
  
  Proc.PRICAI 2004, Lecture Notes in Artificial Intelligence, Springer-Verlag 3157
  
  ページ: 211-220
[雑誌論文] Automatic Wrapper Generation for Metasearch using Ordered Tree Structured Patterns2004
- 著者名/発表者名
  Kazuhide Aikou
- 雑誌名
  
  Proc.AI 2004, Lecture Notes in Artificial Intelligence, Springer-Verlag 3339
  
  ページ: 1030-1035
[雑誌論文] Finding Frequent Structural Features among Words in Tree-Structured Documents2004
- 著者名/発表者名
  Tomoyuki Uchida
- 雑誌名
  
  Proc.PAKDD 2004, Lecture Notes in Artificial Intelligence, Springer-Verlag 3056
  
  ページ: 351-350
[雑誌論文] Extracting Multiple Layers from Data Having Graph Structures2004
- 著者名/発表者名
  Yuko Itokawa
- 雑誌名
  
  Proc.2nd Asian Symposium on Geographic Information Systems from-Computer Science & Engineering View (ASGIS 2004)
  
  ページ: 283-291
[雑誌論文] Generalization Algorithms for Second-Order Terms2004
- 著者名/発表者名
  Kouichi Hirata
- 雑誌名
  
  Proc.ILP 2004, Lecture Notes in Artificial Intelligence, Springer-Verlag 3194
  
  ページ: 147-163
[雑誌論文] Extracting Minimal and Closed Monotone DNF Formulas2004
- 著者名/発表者名
  Yoshikazu Shima
- 雑誌名
  
  Proc.DS 2004, Lecture Notes in Artificial Intelligence, Springer-Verlag 3245
  
  ページ: 298-305

2004 年度 実績報告書

機械学習手法による半構造データマイニングと情報抽出

研究代表者

宮原 哲浩 広島市立大学, 情報科学部, 助教授 (90209932)

研究成果

[雑誌論文] Tractable and Intractable Second-Order Matching Problems2004

著者名/発表者名

雑誌名

[雑誌論文] Discovery of Maximally Frequent Tag Tree Patterns with Contractible Variables from Semistructured Documents2004

著者名/発表者名

雑誌名

[雑誌論文] Polynomial Time Inductive Inference of Ordered Tree Languages with Height-Constrained Variables from Positive Data2004

著者名/発表者名

雑誌名

[雑誌論文] Automatic Wrapper Generation for Metasearch using Ordered Tree Structured Patterns2004

著者名/発表者名

雑誌名

[雑誌論文] Finding Frequent Structural Features among Words in Tree-Structured Documents2004

著者名/発表者名

雑誌名

[雑誌論文] Extracting Multiple Layers from Data Having Graph Structures2004

著者名/発表者名

雑誌名

[雑誌論文] Generalization Algorithms for Second-Order Terms2004

著者名/発表者名

雑誌名

[雑誌論文] Extracting Minimal and Closed Monotone DNF Formulas2004

著者名/発表者名

雑誌名

2004 年度実績報告書

宮原哲浩広島市立大学, 情報科学部, 助教授 (90209932)