• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

Research Project

Project/Area Number 18700154
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionKyushu Institute of Technology

Principal Investigator

坂本 比呂志  Kyushu Institute of Technology, 情報工学部, 准教授 (50315123)

Project Period (FY) 2006 – 2007
Project Status Completed (Fiscal Year 2007)
Budget Amount *help
¥2,800,000 (Direct Cost: ¥2,800,000)
Fiscal Year 2007: ¥1,400,000 (Direct Cost: ¥1,400,000)
Fiscal Year 2006: ¥1,400,000 (Direct Cost: ¥1,400,000)
Keywords半構造データ / 情報抽出 / 機械学習 / パターン発見
Research Abstract

本研究の目的は、ウェブページやXMLデータが無制限にネットワーク上を流れる大規模半構造データストリームから,有用な情報を効率よく獲得するオンライン型半構造情報抽出アルゴリズムの開発を行うことである.特に,本研究では,申請者らのこれまでの先行研究によってもたらされた,機械学習による情報抽出,パターン発見アルゴリズム,データ圧縮等の技術を援用することで,動的に変化する大規模半構造データに対して,限定された計算機資源のもとで高速かつ頑健なデータ抽出処理を実現するアルゴリズムの構築を目指す.
従来の機械学習による情報抽出の枠組みでは,アルゴリズムは与えられたデータから一般構造を発見して,ラッパー(抽出規則)を構築する.また,抽出アルゴリズムがラッパーと未知のデータをマッチングさせて適切なデータを取り出す.この方法では,データがHTMLのように単純な根付き木(Rooted Tree)で表現できる場合には,それほど多くの訓練例を必要とせず,また抽出規則も簡単な場合が多く,学習が容易である.しかしながら,この方法では,訓練例が動的に変化する場合には学習をもう一度最初からやり直さなければならず,また,XMLデータのように,より複雑なデータ構造(DAG:Directed Acyclic Graph)が対象となると,学習そのものが困難となる.
今年度は,前年度までに得られた基本的なアルゴリズムをより大規模なデータに対して実現し,その性能を他のアルゴリズムと比較を行った.その結果,本研究のアルゴリズムは,多種法よりも数十から数百倍の高速化を達成した.この成果によって,本研究は第18回データ工学ワークショップにおいて優秀論文賞を受賞した.

Report

(2 results)
  • 2007 Annual Research Report
  • 2006 Annual Research Report
  • Research Products

    (13 results)

All 2008 2007 2006 Other

All Journal Article (7 results) (of which Peer Reviewed: 2 results) Presentation (5 results) Remarks (1 results)

  • [Journal Article] 高速な到達可能性判定のための規模耐性の高い索引付け2007

    • Author(s)
      中村有作, 舞田哲哉, 坂本 比呂志
    • Journal Title

      DBSJ Letters 6(1)

      Pages: 77-80

    • NAID

      40015591097

    • Related Report
      2007 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Efficient Reachability Test on Directed Graphs and Its Application to Large XML Data2007

    • Author(s)
      Yuusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
    • Journal Title

      IEEE International Workshop on Databases for Next-Generation Researchers (CD-ROM)

    • Related Report
      2007 Annual Research Report
    • Peer Reviewed
  • [Journal Article] 参照構造を持つXML上の高速な到達可能性判定2007

    • Author(s)
      中村有作, 舞田哲哉, 坂本 比呂志
    • Journal Title

      人工知能学会論文誌 Vol. 22, No. 2

      Pages: 191-199

    • NAID

      10022007358

    • Related Report
      2006 Annual Research Report
  • [Journal Article] Improving Time and Space Complexity for Compressed Pattern Matching2007

    • Author(s)
      Shirou Maruyama, Hiromitsu Miyagawa, Hiroshi Sakamoto
    • Journal Title

      Proc. of The 17th International Symposium on Algorithms and Computation (ISAAC 2006)

      Pages: 484-493

    • Related Report
      2006 Annual Research Report
  • [Journal Article] 有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用2007

    • Author(s)
      中村有作, 舞田哲哉, 坂本比呂志
    • Journal Title

      第18回データ工学ワークショップ(DEWS2007)

    • Related Report
      2006 Annual Research Report
  • [Journal Article] 木構造データに対するカーネル関数の設計と解析2006

    • Author(s)
      鹿島 久嗣, 坂本 比呂志, 小柳 光生
    • Journal Title

      人工知能学会論文誌 Vol. 21, No. 1

      Pages: 113-121

    • NAID

      10022006027

    • Related Report
      2006 Annual Research Report
  • [Journal Article] Fast Reachability Test on DAGs for XML2006

    • Author(s)
      Yusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
    • Journal Title

      Proc. of the The International Workshop on Data-Mining and Statistical Science (DMSS06)

      Pages: 151-158

    • NAID

      10022007358

    • Related Report
      2006 Annual Research Report
  • [Presentation] 有向グラフ上の最短距離の効率的な計算2008

    • Author(s)
      原口新平, 中村有作, 坂本比呂志
    • Organizer
      電子情報通信学会 第19回データ工学ワークショップ
    • Place of Presentation
      宮崎国際会議楊
    • Year and Date
      2008-03-11
    • Related Report
      2007 Annual Research Report
  • [Presentation] 有向グラフ上の最短距離の効率的な計算2008

    • Author(s)
      原口新平, 中村有作, 坂本比呂志
    • Organizer
      第68回SIG-FPAI研究会
    • Place of Presentation
      北海道大学
    • Year and Date
      2008-01-17
    • Related Report
      2007 Annual Research Report
  • [Presentation] DAG上の2HOPラベリングの大規模化2007

    • Author(s)
      田中洋平, 坂本比呂志
    • Organizer
      第66回SIG-FPAI研究会
    • Place of Presentation
      ゆふいん七色の風
    • Year and Date
      2007-07-13
    • Related Report
      2007 Annual Research Report
  • [Presentation] DAG上の2HOPラベリングの効率的なメンテナンス,第66回SIG-FPAI研究会2007

    • Author(s)
      原口新平, 中村有作, 坂本比呂志
    • Organizer
      第66回SIG-FPAI研究会
    • Place of Presentation
      ゆふいん七色の風
    • Year and Date
      2007-07-13
    • Related Report
      2007 Annual Research Report
  • [Presentation] 圧縮アルゴリズムLCA法の改良と実験による評価2007

    • Author(s)
      丸山史郎, 坂本比呂志
    • Organizer
      コンピュテーション研究会
    • Place of Presentation
      京都大学
    • Year and Date
      2007-04-26
    • Related Report
      2007 Annual Research Report
  • [Remarks]

    • URL

      http://www.donald.ai.kyutech.ac.jp/~hiroshi/

    • Related Report
      2007 Annual Research Report

URL: 

Published: 2006-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi