2006 Fiscal Year Annual Research Report

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

Research Project

Project/Area Number	18700154
Research Institution	Kyushu Institute of Technology
Principal Investigator	坂本比呂志九州工業大学, 情報工学部, 助教授 (50315123)
Keywords	半構造データ / 情報抽出 / 機械学習 / パターン発見
Research Abstract	本研究の目的は,ウェブページやXMLデータが無制限にネットワーク上を流れる大規模半構造データストリームから,有用な情報を効率よく獲得するオンライン型半構造情報抽出アルゴリズムの開発を行うことである.特に,本研究では,申請者らのこれまでの先行研究によってもたらされた,機械学習による情報抽出,パターン発見アルゴリズム,データ圧縮等の技術を援用することで,動的に変化する大規模半構造データに対して,限定された計算機資源のもとで高速かつ頑健なデータ抽出処理を実現するアルゴリズムの構築を目指す. 従来の機械学習による情報抽出の枠組みでは,アルゴリズムは与えられたデータから一般構造を発見して,ラッパー(抽出規則)を構築する.また,抽出アルゴリズムがラッパーと未知のデータをマッチングさせて適切なデータを取り出す.この方法では,データがHTMLのように単純な根付き木(Rooted Tree)で表現できる場合には,それほど多くの訓練例を必要とせず,また抽出規則も簡単な場合が多く,学習が容易である.しかしながら,この方法では,訓練例が動的に変化する場合には学習をもう一度最初からやり直さなければならず,また,XMLデータのように,より複雑なデータ構造(DAG : Directed Acyclic Graph)が対象となると,学習そのものが困難となる. 今年度に行った研究によって,これまで困難であった一般のグラフ構造に対して情報抽出を行うことが可能なXMLデータに対する索引構造を提案し,その索引を高速に計算するアルゴリズムを実装した.その結果従来手法と比較して100倍以上の高速化に成功した.これらの成果は,国際会議や論文誌において公表済みである.

Research Products
(5 results)

All 2007 2006

All Journal Article (5 results)

[Journal Article] 参照構造を持つXML上の高速な到達可能性判定2007
- Author(s)
  中村有作, 舞田哲哉, 坂本比呂志
- Journal Title
  
  人工知能学会論文誌 Vol. 22, No. 2
  
  Pages: 191-199
[Journal Article] Improving Time and Space Complexity for Compressed Pattern Matching2007
- Author(s)
  Shirou Maruyama, Hiromitsu Miyagawa, Hiroshi Sakamoto
- Journal Title
  
  Proc. of The 17th International Symposium on Algorithms and Computation (ISAAC 2006)
  
  Pages: 484-493
[Journal Article] 有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用2007
- Author(s)
  中村有作, 舞田哲哉, 坂本比呂志
- Journal Title
  
  第18回データ工学ワークショップ(DEWS2007)
  
  Pages: L5-3
[Journal Article] 木構造データに対するカーネル関数の設計と解析2006
- Author(s)
  鹿島久嗣, 坂本比呂志, 小柳光生
- Journal Title
  
  人工知能学会論文誌 Vol. 21, No. 1
  
  Pages: 113-121
[Journal Article] Fast Reachability Test on DAGs for XML2006
- Author(s)
  Yusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
- Journal Title
  
  Proc. of the The International Workshop on Data-Mining and Statistical Science (DMSS06)
  
  Pages: 151-158

2006 Fiscal Year Annual Research Report

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

Principal Investigator

坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)

Research Products

[Journal Article] 参照構造を持つXML上の高速な到達可能性判定2007

Author(s)

Journal Title

[Journal Article] Improving Time and Space Complexity for Compressed Pattern Matching2007

Author(s)

Journal Title

[Journal Article] 有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用2007

Author(s)

Journal Title

[Journal Article] 木構造データに対するカーネル関数の設計と解析2006

Author(s)

Journal Title

[Journal Article] Fast Reachability Test on DAGs for XML2006

Author(s)

Journal Title

坂本比呂志九州工業大学, 情報工学部, 助教授 (50315123)