2007 Fiscal Year Annual Research Report

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

Research Project

Project/Area Number	18700154
Research Institution	Kyushu Institute of Technology
Principal Investigator	坂本比呂志 Kyushu Institute of Technology, 情報工学部, 准教授 (50315123)
Keywords	半構造データ / 情報抽出 / 機械学習 / パターン発見
Research Abstract	本研究の目的は、ウェブページやXMLデータが無制限にネットワーク上を流れる大規模半構造データストリームから,有用な情報を効率よく獲得するオンライン型半構造情報抽出アルゴリズムの開発を行うことである.特に,本研究では,申請者らのこれまでの先行研究によってもたらされた,機械学習による情報抽出,パターン発見アルゴリズム,データ圧縮等の技術を援用することで,動的に変化する大規模半構造データに対して,限定された計算機資源のもとで高速かつ頑健なデータ抽出処理を実現するアルゴリズムの構築を目指す. 従来の機械学習による情報抽出の枠組みでは,アルゴリズムは与えられたデータから一般構造を発見して,ラッパー(抽出規則)を構築する.また,抽出アルゴリズムがラッパーと未知のデータをマッチングさせて適切なデータを取り出す.この方法では,データがHTMLのように単純な根付き木(Rooted Tree)で表現できる場合には,それほど多くの訓練例を必要とせず,また抽出規則も簡単な場合が多く,学習が容易である.しかしながら,この方法では,訓練例が動的に変化する場合には学習をもう一度最初からやり直さなければならず,また,XMLデータのように,より複雑なデータ構造(DAG:Directed Acyclic Graph)が対象となると,学習そのものが困難となる. 今年度は,前年度までに得られた基本的なアルゴリズムをより大規模なデータに対して実現し,その性能を他のアルゴリズムと比較を行った.その結果,本研究のアルゴリズムは,多種法よりも数十から数百倍の高速化を達成した.この成果によって,本研究は第18回データ工学ワークショップにおいて優秀論文賞を受賞した.

Research Products
(8 results)

All 2008 2007 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (5 results) Remarks (1 results)

[Journal Article] 高速な到達可能性判定のための規模耐性の高い索引付け2007
- Author(s)
  中村有作, 舞田哲哉, 坂本比呂志
- Journal Title
  
  DBSJ Letters 6(1)
  
  Pages: 77-80
- Peer Reviewed
[Journal Article] Efficient Reachability Test on Directed Graphs and Its Application to Large XML Data2007
- Author(s)
  Yuusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
- Journal Title
  
  IEEE International Workshop on Databases for Next-Generation Researchers (CD-ROM)
- Peer Reviewed
[Presentation] 有向グラフ上の最短距離の効率的な計算2008
- Author(s)
  原口新平, 中村有作, 坂本比呂志
- Organizer
  電子情報通信学会第19回データ工学ワークショップ
- Place of Presentation
  宮崎国際会議楊
- Year and Date
  2008-03-11
[Presentation] 有向グラフ上の最短距離の効率的な計算2008
- Author(s)
  原口新平, 中村有作, 坂本比呂志
- Organizer
  第68回SIG-FPAI研究会
- Place of Presentation
  北海道大学
- Year and Date
  2008-01-17
[Presentation] DAG上の2HOPラベリングの大規模化2007
- Author(s)
  田中洋平, 坂本比呂志
- Organizer
  第66回SIG-FPAI研究会
- Place of Presentation
  ゆふいん七色の風
- Year and Date
  2007-07-13
[Presentation] DAG上の2HOPラベリングの効率的なメンテナンス,第66回SIG-FPAI研究会2007
- Author(s)
  原口新平, 中村有作, 坂本比呂志
- Organizer
  第66回SIG-FPAI研究会
- Place of Presentation
  ゆふいん七色の風
- Year and Date
  2007-07-13
[Presentation] 圧縮アルゴリズムLCA法の改良と実験による評価2007
- Author(s)
  丸山史郎, 坂本比呂志
- Organizer
  コンピュテーション研究会
- Place of Presentation
  京都大学
- Year and Date
  2007-04-26
[Remarks]
- URL
  http://www.donald.ai.kyutech.ac.jp/~hiroshi/

2007 Fiscal Year Annual Research Report

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

Principal Investigator

坂本 比呂志 Kyushu Institute of Technology, 情報工学部, 准教授 (50315123)

Research Products

[Journal Article] 高速な到達可能性判定のための規模耐性の高い索引付け2007

Author(s)

Journal Title

[Journal Article] Efficient Reachability Test on Directed Graphs and Its Application to Large XML Data2007

Author(s)

Journal Title

[Presentation] 有向グラフ上の最短距離の効率的な計算2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 有向グラフ上の最短距離の効率的な計算2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] DAG上の2HOPラベリングの大規模化2007

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] DAG上の2HOPラベリングの効率的なメンテナンス,第66回SIG-FPAI研究会2007

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 圧縮アルゴリズムLCA法の改良と実験による評価2007

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks]

URL

坂本比呂志 Kyushu Institute of Technology, 情報工学部, 准教授 (50315123)