• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

研究課題

研究課題/領域番号 18700154
研究種目

若手研究(B)

配分区分補助金
研究分野 知能情報学
研究機関九州工業大学

研究代表者

坂本 比呂志  九州工業大学, 情報工学部, 准教授 (50315123)

研究期間 (年度) 2006 – 2007
研究課題ステータス 完了 (2007年度)
配分額 *注記
2,800千円 (直接経費: 2,800千円)
2007年度: 1,400千円 (直接経費: 1,400千円)
2006年度: 1,400千円 (直接経費: 1,400千円)
キーワード半構造データ / 情報抽出 / 機械学習 / パターン発見
研究概要

本研究の目的は、ウェブページやXMLデータが無制限にネットワーク上を流れる大規模半構造データストリームから,有用な情報を効率よく獲得するオンライン型半構造情報抽出アルゴリズムの開発を行うことである.特に,本研究では,申請者らのこれまでの先行研究によってもたらされた,機械学習による情報抽出,パターン発見アルゴリズム,データ圧縮等の技術を援用することで,動的に変化する大規模半構造データに対して,限定された計算機資源のもとで高速かつ頑健なデータ抽出処理を実現するアルゴリズムの構築を目指す.
従来の機械学習による情報抽出の枠組みでは,アルゴリズムは与えられたデータから一般構造を発見して,ラッパー(抽出規則)を構築する.また,抽出アルゴリズムがラッパーと未知のデータをマッチングさせて適切なデータを取り出す.この方法では,データがHTMLのように単純な根付き木(Rooted Tree)で表現できる場合には,それほど多くの訓練例を必要とせず,また抽出規則も簡単な場合が多く,学習が容易である.しかしながら,この方法では,訓練例が動的に変化する場合には学習をもう一度最初からやり直さなければならず,また,XMLデータのように,より複雑なデータ構造(DAG:Directed Acyclic Graph)が対象となると,学習そのものが困難となる.
今年度は,前年度までに得られた基本的なアルゴリズムをより大規模なデータに対して実現し,その性能を他のアルゴリズムと比較を行った.その結果,本研究のアルゴリズムは,多種法よりも数十から数百倍の高速化を達成した.この成果によって,本研究は第18回データ工学ワークショップにおいて優秀論文賞を受賞した.

報告書

(2件)
  • 2007 実績報告書
  • 2006 実績報告書
  • 研究成果

    (13件)

すべて 2008 2007 2006 その他

すべて 雑誌論文 (7件) (うち査読あり 2件) 学会発表 (5件) 備考 (1件)

  • [雑誌論文] 高速な到達可能性判定のための規模耐性の高い索引付け2007

    • 著者名/発表者名
      中村有作, 舞田哲哉, 坂本 比呂志
    • 雑誌名

      DBSJ Letters 6(1)

      ページ: 77-80

    • NAID

      40015591097

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [雑誌論文] Efficient Reachability Test on Directed Graphs and Its Application to Large XML Data2007

    • 著者名/発表者名
      Yuusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
    • 雑誌名

      IEEE International Workshop on Databases for Next-Generation Researchers (CD-ROM)

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [雑誌論文] 参照構造を持つXML上の高速な到達可能性判定2007

    • 著者名/発表者名
      中村有作, 舞田哲哉, 坂本 比呂志
    • 雑誌名

      人工知能学会論文誌 Vol. 22, No. 2

      ページ: 191-199

    • NAID

      10022007358

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Improving Time and Space Complexity for Compressed Pattern Matching2007

    • 著者名/発表者名
      Shirou Maruyama, Hiromitsu Miyagawa, Hiroshi Sakamoto
    • 雑誌名

      Proc. of The 17th International Symposium on Algorithms and Computation (ISAAC 2006)

      ページ: 484-493

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用2007

    • 著者名/発表者名
      中村有作, 舞田哲哉, 坂本比呂志
    • 雑誌名

      第18回データ工学ワークショップ(DEWS2007)

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 木構造データに対するカーネル関数の設計と解析2006

    • 著者名/発表者名
      鹿島 久嗣, 坂本 比呂志, 小柳 光生
    • 雑誌名

      人工知能学会論文誌 Vol. 21, No. 1

      ページ: 113-121

    • NAID

      10022006027

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Fast Reachability Test on DAGs for XML2006

    • 著者名/発表者名
      Yusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
    • 雑誌名

      Proc. of the The International Workshop on Data-Mining and Statistical Science (DMSS06)

      ページ: 151-158

    • NAID

      10022007358

    • 関連する報告書
      2006 実績報告書
  • [学会発表] 有向グラフ上の最短距離の効率的な計算2008

    • 著者名/発表者名
      原口新平, 中村有作, 坂本比呂志
    • 学会等名
      電子情報通信学会 第19回データ工学ワークショップ
    • 発表場所
      宮崎国際会議楊
    • 年月日
      2008-03-11
    • 関連する報告書
      2007 実績報告書
  • [学会発表] 有向グラフ上の最短距離の効率的な計算2008

    • 著者名/発表者名
      原口新平, 中村有作, 坂本比呂志
    • 学会等名
      第68回SIG-FPAI研究会
    • 発表場所
      北海道大学
    • 年月日
      2008-01-17
    • 関連する報告書
      2007 実績報告書
  • [学会発表] DAG上の2HOPラベリングの大規模化2007

    • 著者名/発表者名
      田中洋平, 坂本比呂志
    • 学会等名
      第66回SIG-FPAI研究会
    • 発表場所
      ゆふいん七色の風
    • 年月日
      2007-07-13
    • 関連する報告書
      2007 実績報告書
  • [学会発表] DAG上の2HOPラベリングの効率的なメンテナンス,第66回SIG-FPAI研究会2007

    • 著者名/発表者名
      原口新平, 中村有作, 坂本比呂志
    • 学会等名
      第66回SIG-FPAI研究会
    • 発表場所
      ゆふいん七色の風
    • 年月日
      2007-07-13
    • 関連する報告書
      2007 実績報告書
  • [学会発表] 圧縮アルゴリズムLCA法の改良と実験による評価2007

    • 著者名/発表者名
      丸山史郎, 坂本比呂志
    • 学会等名
      コンピュテーション研究会
    • 発表場所
      京都大学
    • 年月日
      2007-04-26
    • 関連する報告書
      2007 実績報告書
  • [備考]

    • URL

      http://www.donald.ai.kyutech.ac.jp/~hiroshi/

    • 関連する報告書
      2007 実績報告書

URL: 

公開日: 2006-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi