2006 年度実績報告書

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

研究課題

研究課題/領域番号	18700154
研究機関	九州工業大学
研究代表者	坂本比呂志九州工業大学, 情報工学部, 助教授 (50315123)
キーワード	半構造データ / 情報抽出 / 機械学習 / パターン発見
研究概要	本研究の目的は,ウェブページやXMLデータが無制限にネットワーク上を流れる大規模半構造データストリームから,有用な情報を効率よく獲得するオンライン型半構造情報抽出アルゴリズムの開発を行うことである.特に,本研究では,申請者らのこれまでの先行研究によってもたらされた,機械学習による情報抽出,パターン発見アルゴリズム,データ圧縮等の技術を援用することで,動的に変化する大規模半構造データに対して,限定された計算機資源のもとで高速かつ頑健なデータ抽出処理を実現するアルゴリズムの構築を目指す. 従来の機械学習による情報抽出の枠組みでは,アルゴリズムは与えられたデータから一般構造を発見して,ラッパー(抽出規則)を構築する.また,抽出アルゴリズムがラッパーと未知のデータをマッチングさせて適切なデータを取り出す.この方法では,データがHTMLのように単純な根付き木(Rooted Tree)で表現できる場合には,それほど多くの訓練例を必要とせず,また抽出規則も簡単な場合が多く,学習が容易である.しかしながら,この方法では,訓練例が動的に変化する場合には学習をもう一度最初からやり直さなければならず,また,XMLデータのように,より複雑なデータ構造(DAG : Directed Acyclic Graph)が対象となると,学習そのものが困難となる. 今年度に行った研究によって,これまで困難であった一般のグラフ構造に対して情報抽出を行うことが可能なXMLデータに対する索引構造を提案し,その索引を高速に計算するアルゴリズムを実装した.その結果従来手法と比較して100倍以上の高速化に成功した.これらの成果は,国際会議や論文誌において公表済みである.

研究成果
(5件)

すべて 2007 2006

すべて雑誌論文 (5件)

[雑誌論文] 参照構造を持つXML上の高速な到達可能性判定2007
- 著者名/発表者名
  中村有作, 舞田哲哉, 坂本比呂志
- 雑誌名
  
  人工知能学会論文誌 Vol. 22, No. 2
  
  ページ: 191-199
[雑誌論文] Improving Time and Space Complexity for Compressed Pattern Matching2007
- 著者名/発表者名
  Shirou Maruyama, Hiromitsu Miyagawa, Hiroshi Sakamoto
- 雑誌名
  
  Proc. of The 17th International Symposium on Algorithms and Computation (ISAAC 2006)
  
  ページ: 484-493
[雑誌論文] 有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用2007
- 著者名/発表者名
  中村有作, 舞田哲哉, 坂本比呂志
- 雑誌名
  
  第18回データ工学ワークショップ(DEWS2007)
  
  ページ: L5-3
[雑誌論文] 木構造データに対するカーネル関数の設計と解析2006
- 著者名/発表者名
  鹿島久嗣, 坂本比呂志, 小柳光生
- 雑誌名
  
  人工知能学会論文誌 Vol. 21, No. 1
  
  ページ: 113-121
[雑誌論文] Fast Reachability Test on DAGs for XML2006
- 著者名/発表者名
  Yusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
- 雑誌名
  
  Proc. of the The International Workshop on Data-Mining and Statistical Science (DMSS06)
  
  ページ: 151-158

2006 年度 実績報告書

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

研究代表者

坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)

研究成果

[雑誌論文] 参照構造を持つXML上の高速な到達可能性判定2007

著者名/発表者名

雑誌名

[雑誌論文] Improving Time and Space Complexity for Compressed Pattern Matching2007

著者名/発表者名

雑誌名

[雑誌論文] 有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用2007

著者名/発表者名

雑誌名

[雑誌論文] 木構造データに対するカーネル関数の設計と解析2006

著者名/発表者名

雑誌名

[雑誌論文] Fast Reachability Test on DAGs for XML2006

著者名/発表者名

雑誌名

2006 年度実績報告書

坂本比呂志九州工業大学, 情報工学部, 助教授 (50315123)